DEVELOPER’s BLOG

技術ブログ

ベイズ統計学の特徴と利用例(迷惑メール判別)

2019.07.17 夏野光
機械学習 統計学
ベイズ統計学の特徴と利用例(迷惑メール判別)

1,ベイズ統計学とは

ベイズ統計学とは、ベイズの定理を基礎とした統計学の体系である。

2,他の統計学との相違

  1. ベイズ統計学は標本を必ずしも必要とせず、母数が確率的に動くとみなす学問
  2. 記述統計学はデータを集計する手法を学ぶ学問
  3. 推計統計学は限られた標本のうち全体となる母集団の性質を推測する学問

3,ベイズ統計学の歴史

1700年頃、トーマス・ベイズによりベイズの定理が発表された。 後に、1800年代後半にベイズ統計の基礎ができた。 しかし、推計統計学論者のフィッシャーらによって主観確率を 取り扱う統計は科学的ではないとしてベイズ統計は闇に葬りさられた。 1950年代に入り、ベイズ統計の利便性の高さから注目されて、 近年は機械学習やビッグデータの分野で利用されることから多用されるようになった。

4,ベイズ統計の特徴

ベイズ統計では、主観確率を取り扱う。主観確率とは、 人により対象の確率が変動する主観に基づく確率の事である。 この確率を使用して事前確率と事後確率を用いて数式化する。

5,事前確率と事後確率

事前確率とは、データを手に入れる前に想定していた確率のことである。 事後確率とは、データを用いて事前確率を修正した結果の確率のことである。

6,ベイズ変更

事前確率を変更してより正確と考えられる事前確率に変更することをベイズ変更という。 ベイズ変更により事前確率が変更するため、その結果事後確率が変わる。

7,ベイズ統計の公式

ベイズの定理 P(A|X)=P(X)分のP(X|A)P(A)=P(A)✕P(X)分のP(X|A)

  • P(A|X):事象Xが起こった状況下で事象Aが起こる確率(事後確率)
  • P(A):事象Aが起こる確率(事前確率)
  • P(X):事象Xが起こる確率
  • P(X|A):事象Aが起こった状況下で事象Xが起こる確率

ベイズの定理を文字として表現すると、 事後確率=事前確率✕修正項 になる。 この数式に数を代入すれば事後確率が求まる。

8,ベイズ統計の使用例

1.迷惑メール判別

ユーザーがスパムとしたメールとスパムではないとしたメールから、タイトル、 本文に含まれる語句ごとの出現確率を抽出して点数をつける。 スパムと正常なメールを判別するための閾値を導き出す。 新規メールを受信したら、そのタイトルや本文を自然言語処理し、閾値と照らし合わせてスパムメールである 確率が高ければスパムメールとして振り分ける。

2.検索エンジン

Googleやマイクロソフトの検索エンジンはベイジアンフィルタを採用している。 1990年頃まで一般的だったif,and,or, butを使い判別する検索エンジンの検索精度や速度を凌駕した。

3.アプリケーション開発

インテル、マイクロソフトなどで活用されている他、LINEスタンプのレコメンドエンジンにも応用されている。

関連記事

ベイジアンネットワーク入門

最近扱われるデータ量は膨大です。それに伴いデータの見方を変え、かつては重要度が低かった点からも関係性を見出す必要があります。 そのために確率推論は多くの命題の生起する可能性を確率として記述することから始められ、条件付き確率と結合確率を1つずつ繋ぎ合わせ段階的に構成されています。 ベイジアンネットワーク(Bayesian network) 人工知能(AI)における確率推論の一つのモデルです。 イギリスの確率論研究家トーマス・ベイズが発案したベイズの定理に基づ

記事詳細
ベイジアンネットワーク入門
統計学
統計検定1級 合格記

2019年11月24日に行われた統計検定1級で、統計数理と統計応用(理工学)の両分野で合格をいただけました。このブログには僕がその合格までに行ったこととその振り返りを書き連ねておこうと思います。 もくじ 統計検定1級を受けようと思った理由 申し込む前の学習状況 申し込み 本番までに行った学習 試験本番 試験までを振り返って 統計検定1級を受けようと思った理由 僕がこの統計検定1級を受けようと思った理由は僕の興味対象となる研究分野が確

記事詳細
統計検定1級 合格記
統計学
文系のための統計学の勉強方法

今回は初めて統計学を勉強しよう、統計検定を受けようという 文系の大学生 文系出身のビジネスマン このような方に向けて、勉強方法やおすすめの本について紹介していきます。 今回紹介する本の内容をマスターすると、統計検定2級の合格や機械学習の本を理解できるようになります。 目次 自己紹介 なぜ統計学の勉強が大変なのか 本の紹介 自己紹介 僕は現在、大学3年生で文系の学部に所属しています。 統計学を勉強したきっかけは以下の2つです。 データを分析するのに必要なた

記事詳細
文系のための統計学の勉強方法
統計学
自然言語処理( NLP )とは  -統計的手法を用いて-

※本記事の対象:自然言語処理という言葉は聞いたことはあるが、どういうアプローチで処理がされているかイメージが湧かない方(大学レベルの数学の知識は必要) ※内容はオーム社『ゼロから学ぶDeep Learning2』を参考にしている 目次 1. はじめに:自然言語処理(NLP)とは 2. シソーラスによる手法 3. カウントベースの手法( 統計的手法 ) 4. カウントベースの手法の改善点 5. 【次回】word2vec( ←これがメイン ) 6. まとめ

記事詳細
自然言語処理( NLP )とは -統計的手法を用いて-
統計学 自然言語処理

お問い合わせはこちらから