DEVELOPER’s BLOG

技術ブログ

トップ
技術ブログ
記事詳細

人間が騙されているフェイクニュースをAIが見破れるか？

2020.03.26 竹中涼香

コラム機械学習自然言語処理

フェイクニュースは珍しいものではありません。
コロナウイルスの情報が凄まじい速さで拡散されていますが、その中にもフェイクニュースは混ざっています。悪意により操作された情報、過大表現された情報、ネガティブに偏って作成された情報は身近にも存在しています。
これらによって、私たちは不必要な不安を感じ、コロナ疲れ・コロナ鬱などという言葉も出現しました。

TwitterやInstagramなどのソーシャルメディアでは嘘みたいな衝撃的なニュースはさらに誇張な表現で拡散され、フェイクニュースは瞬く間に広がります。嘘を見破るのは難しく、見破られないまま多くの人に「正しい情報」として届けられています。
2017年に『Journal of Economic Perspectives』誌に掲載された記事では、アメリカの成人の62％がソーシャルメディア上でニュースを得ており、フェイクニュースサイトへの訪問は41.8％がソーシャルメディアのリンクを経由していることが示されています。

フェイクニュースの無い世界ではじめて、私たちは正しい情報に触れ健全な判断をすることができます。
しかし、膨大な情報が混在するソーシャルメディア上でフェイクニュースを発見する作業は人間が行うにはコストがかかりすぎるため現実的ではありません。

AIはフェイクニュースを発見できないでしょうか。

AIはフェイクニュースを発見できる？

ソーシャルメディアの登録者数が世界的に増えているにも関わらずソーシャルメディアのプラットフォームもこの新興市場に投資していないようで、技術検証に留まっています。

革新的なスタートアップが出現するかどうかは出資の有無にかかっているでしょう。今後、ソーシャルメディアの世界を牽引するためにフェイクニュース検出への投資が出現するのではないでしょうか。

商品化はされていませんが、技術検証は進んでいます。

FEVERによる情報の正誤判定

マサチューセッツ工科大学では、Facebookが支援している研究者がフェイクニュースを発見するためにFEVER（Fact Extraction and Verification）を利用しています。 ※FEVER:大規模なファクトチェックのためのデータベース

しかし、FEVERでさえもバイアスがあり思うようにフェイクニュースを発見できていません。

FEVERは機械学習の研究者たちによって、ウィキペディアの記事を元に、情報に対して正誤を判定するために利用されてきました。しかし、そのデータセットにバイアスがありそれで学習したモデルが誤った結果を導いてしまったと研究チームは分析しています。

例えば、'did not'や'yet to'のような否定のフレーズが含まれた文章は「偽」の場合が多いため、FEVERで訓練されたモデルは、これらの文が実際に真実であるかどうかに関係なく、偽と判定してしまう可能性が高いことが課題です。

真実である"Adam Lambert does not not hide publicly his homosexuality "は、AIに与えられたデータから真実と導けるにもかかわらず、否定のフレーズが入っているので偽とされる可能性が高いです。

判定の根拠に主張の言語(どんなフレーズが入っているか)に焦点を当てており、外部の証拠(実際はどうであるか？)を考慮に入れていないことが問題でしょう。

証拠を一切考慮せずに主張を分類することのもう一つの問題点は、全く同じ主張が今日は真であっても、将来的には偽であると考えられる可能性があるということです。例えば、女優のオリビア・コルマンがオスカーを受賞したことがないというのは2019年までは本当でしたが、現在では違います。情報は常に更新されていくのです。

これらの課題解決のため、研究チームはFEVERのバイアスを解消し一部を修正するデータセットを作成しています。

計算言語学と機械学習のハイブリッド手法

2018年に発表されたミシガン大学とアムステルダム大学の論文は、効果的にフェイクニュースと戦うために、計算言語学とファクトチェック(事実検証)を組み合わせるアイデアを発表しました。

計算言語学では、自動化された方法でフェイクニュース発見を実施できます。本物と偽物のニュースを区別するために、言語学的特徴に注目してニュース内アイテムの語彙的、構文的、意味的なレベルを見て判断します。

開発されたシステムの性能は、このタスクにおいて人間の性能に近く、最大76%の精度でフェイクニュースを発見することができました。

しかし、考慮するのは言語学的特徴だけではなく、事実検証の要素も含めるべきと指摘されています。例えば、記事へのリンク数やコメントなどのメタ特徴や、ニュースページの見栄えなどのモダリティ的な特徴のことです。これらは機械学習でアプローチすることができます。

これらを踏まえて今後の研究では、計算言語学や事実検証(AI・機械学習)のアプローチをハイブリッドにした予測と意思決定が必要だと考えられます。

実現に向けた課題

これらの例を見ただけでも課題があることがわかります。
イノベーターたちは様々な角度から問題を考えてきましたが、思うような改善には至っていません。

どちらの例でも言及されていない課題があります。
フェイクニュースがどのように作られているかご存知ですか。現在はAIがかなり精巧に作成していますが、問題は人間の作るフェイクニュースです。AIはルールに従ってフェイクニュースを作成するため、私たちも対抗することができますが、人間が作成したニュースを見破るためには難易度が一気に上がります。

たとえば、Twitter。

多くの情報を拡散したい時にTwitterは効果的なツールです。
Twitterでフェイクニュースを拡散したい時、複数のBotで自動投稿するでしょう。Botは単に「いいね！」や「フォロー」数を増やしたり、リンクを拡散したり、トレンドに入るために多くの投稿をしたり、反対派を荒らしたりするために構築されます。このように自動化されたアカウントの大部分は非常に単純なもので発見しやすく現在の技術でも対応できるでしょう。

これだけの対策でも、拡散されるフェイクニュースの効果を弱めることができます。悪意のある情報の拡散は私たちの気持ちを落ち込ませるだけでなく、健全な判断をも奪います。

スクリーンショット 2020-03-26 16.52.10.png

フェイクニュース発見に尽力すべきは誰？

このようなソーシャルメディア上のフェイクニュースの発見は誰が行うべきでしょうか。

FacebookやGoogleなどは暴力やテロリストグループの情報を含むコンテンツの発見には投資していますが、フェイクニュースの発見にはそれほど熱心ではないようです。理由は先程のようにオンライン上には様々な表現、文脈で存在し、AIが独自に発見するは難しいためでしょう。しかし、今後さらに大量のコンテンツが溢れ、有益な情報のみ吟味するためにはフェイクニュースを発見することは必須ではないでしょうか。

市場のチャンス？

今後、ソーシャルメディアのプラットフォームを牽引する企業は出現するでしょう。
利用ユーザー数を増やし、市場を獲得しするためにはユーザーの安全が確保されることが大切です。子供には使わせられないソーシャルメディアは大人も使いたくないですよね？

ソーシャルメディアの登録者数が世界的に増えているにも関わらず、どのソーシャルメディアのプラットフォームもフェイクニュースの発見に積極投資はしていないようで、技術検証に留まっています。

しかし、より安全で健全な世界のためにこの技術は凄まじい進歩を遂げていくのではないでしょうか。

Twitter・Facebookで定期的に情報発信しています！
Follow @acceluniverse

一覧にもどる

はじめに SRE文化が根付かない典型的な失敗パターン "失敗から学ぶ成功への実践的ステップ文化定着を支えるアプローチまとめ 1. はじめに SRE（Site Reliability Engineering）は、可用性やスケーラビリティを技術的に高めるだけでなく、組織全体の文化にも大きな変革をもたらすアプローチです。しかし、理論やツールが理解されていても、いざ現場に導入しようとすると「思ったよりうまくいかない」と感じるケースは少な

記事詳細

技術だけでは足りない！SRE文化を現場に根付かせるための実践的ステップ

SRE コラム

動いてはいるけど、本当に大丈夫？クラウド運用に潜む「よくある違和感」 "健康診断"は現状把握のための第一歩今すぐ始められる「クラウド最適化チェックシート」とは？放置せず、今から変えられることまとめ：安心の第一歩は"自分の現状を知る"ことから 1.動いてはいるけど、本当に大丈夫？システムは動いている。アラートも出ていないし、大きな障害も起きていない。でも、「このままで、本当に大丈夫なのだろうか？」そう感

記事詳細

"今は安定している"に潜む見えないリスク：あなたのクラウド、健康ですか？

SRE コラム

はじめによくあるツールチェーンの失敗例なぜツールが機能しないのか？本質的な原因を探るツールを活かすための設計と運用のポイント技術的アプローチ：閾値設計・連携基盤・OSSと商用の使い分けまとめ 1.はじめに SREの実践を支える基盤として、モニタリング、アラート、CI/CD、自動化といったツールチェーンの整備は欠かせません。しかし、「最新の監視ツールを導入した」「CIパイプラインを構築した」といった形式的な整備を終えても、

記事詳細

見落とされがちなSREツールチェーンの落とし穴

SRE コラム

はじめに：なぜクラウド移行後に運用が不安定になるのか？静的設計のままではスケーラビリティが活かせない自動化なき運用は信頼性を損なう見えないものは守れない：可観測性の再設計金融業界におけるSRE導入の典型例：運用課題からの脱却セキュリティとコスト最適化：持続可能なクラウド運用のためにまとめ：SREによる運用再設計がクラウド成功の鍵 1.はじめに：なぜクラウド移行後に運用が不安定になるのか？多くの企業がクラウド化を進

記事詳細

オンプレからクラウドへのSRE移行：落とし穴と回避策

SRE コラム

DEVELOPER’s BLOG

人間が騙されているフェイクニュースをAIが見破れるか？

AIはフェイクニュースを発見できる？

FEVERによる情報の正誤判定

計算言語学と機械学習のハイブリッド手法

実現に向けた課題

フェイクニュース発見に尽力すべきは誰？

市場のチャンス？

関連記事