DEVELOPER’s BLOG
技術ブログ
ベイズ統計学の特徴と利用例(迷惑メール判別)
1,ベイズ統計学とは
ベイズ統計学とは、ベイズの定理を基礎とした統計学の体系である。
2,他の統計学との相違
- ベイズ統計学は標本を必ずしも必要とせず、母数が確率的に動くとみなす学問
- 記述統計学はデータを集計する手法を学ぶ学問
- 推計統計学は限られた標本のうち全体となる母集団の性質を推測する学問
3,ベイズ統計学の歴史
1700年頃、トーマス・ベイズによりベイズの定理が発表された。 後に、1800年代後半にベイズ統計の基礎ができた。 しかし、推計統計学論者のフィッシャーらによって主観確率を 取り扱う統計は科学的ではないとしてベイズ統計は闇に葬りさられた。 1950年代に入り、ベイズ統計の利便性の高さから注目されて、 近年は機械学習やビッグデータの分野で利用されることから多用されるようになった。
4,ベイズ統計の特徴
ベイズ統計では、主観確率を取り扱う。主観確率とは、 人により対象の確率が変動する主観に基づく確率の事である。 この確率を使用して事前確率と事後確率を用いて数式化する。
5,事前確率と事後確率
事前確率とは、データを手に入れる前に想定していた確率のことである。 事後確率とは、データを用いて事前確率を修正した結果の確率のことである。
6,ベイズ変更
事前確率を変更してより正確と考えられる事前確率に変更することをベイズ変更という。 ベイズ変更により事前確率が変更するため、その結果事後確率が変わる。
7,ベイズ統計の公式
ベイズの定理 P(A|X)=P(X)分のP(X|A)P(A)=P(A)✕P(X)分のP(X|A)
- P(A|X):事象Xが起こった状況下で事象Aが起こる確率(事後確率)
- P(A):事象Aが起こる確率(事前確率)
- P(X):事象Xが起こる確率
- P(X|A):事象Aが起こった状況下で事象Xが起こる確率
ベイズの定理を文字として表現すると、 事後確率=事前確率✕修正項 になる。 この数式に数を代入すれば事後確率が求まる。
8,ベイズ統計の使用例
1.迷惑メール判別
ユーザーがスパムとしたメールとスパムではないとしたメールから、タイトル、 本文に含まれる語句ごとの出現確率を抽出して点数をつける。 スパムと正常なメールを判別するための閾値を導き出す。 新規メールを受信したら、そのタイトルや本文を自然言語処理し、閾値と照らし合わせてスパムメールである 確率が高ければスパムメールとして振り分ける。
2.検索エンジン
Googleやマイクロソフトの検索エンジンはベイジアンフィルタを採用している。 1990年頃まで一般的だったif,and,or, butを使い判別する検索エンジンの検索精度や速度を凌駕した。
3.アプリケーション開発
インテル、マイクロソフトなどで活用されている他、LINEスタンプのレコメンドエンジンにも応用されている。