ChatGPTとBardがインターネット検索中に無意味な会話をする理由

ChatGPTとBardがインターネット検索中に無意味な会話をする理由

自動化されたファクトチェックの手法は日々改善されていますが、まだ多くの盲点が存在します。

これはいわゆる「誤ったスタート」の例です。マイクロソフトがChatGPTを搭載したBing検索エンジンを初めてユーザーに試用させたとき、開始2秒後には、いくつかの質問に対して不正確または意味不明な回答が返されたと報告されました。検索エンジンのリーダーであるGoogleの成績もそれほど良くはありませんでした。言語モデルに基づく誤った情報が公になると、その会社の株価は急落しました。

この顕著な失敗は、技術の2つの弱点を浮き彫りにしています。

この顕著な失敗は、技術の2つの弱点を浮き彫りにしています。

大規模な言語モデルが事実を作り出す能力については、現在広く議論されています。テキスト内の虚偽の主張を自動的に検出することは依然として困難です。

検索エンジン運営者の課題について、ケンブリッジ大学のアンドレアス・ヴラコス氏は、フェイクニュースの自動検出と非常に似ていると語ります。特に、ヴラコス氏はフェイクニュースチャレンジの立ち上げに貢献し、2022年には自動ファクトチェックに関する包括的なレビュー記事を発表しました。これは、大規模な言語モデルから得られる検索結果の正確性を検証する際に検索エンジン運営者が直面する課題について非常に良い洞察を提供します。

誤解を招く可能性のある発言や噂、真実の歪曲を検証することは難しいだけでなく、すべての文の主張を完全に検証することは実際には不可能であり、賢明でもありません。例えば、主観的な主張や評価は事実で裏付けられることはなく、将来についての推測も同様です。「水が濡れている」などの明らかで些細な記述は検証する必要はありません。人間の専門家が常に直面する課題は、実際に重要な記述を見つけることです。そして、「クレーム検出」は既に独自の研究サブ分野に発展しています。

このタイプの自動システムで最もよく知られているものの一つ、ClaimBusterは政治的議論での主張をチェックするために開発されました。このソフトウェアはキーワードだけでなく、テキスト内の有名な名前も検索します。これは、有名な政治家による虚偽の発言がより関連性が高いと考えられるためです。このシステムは、関連性のあるクレームを判定するためにサポートベクターマシンを使用し、その閾値を超えた場合にクレームをチェックする必要があります。

どの主張が重要ですか?

ただし、重要かつ関連性のあるクレームを選択し、しきい値を設定する際の主観性には、コミュニティでの議論の余地があります。そのため、イギリスの事実確認団体「フル・ファクト」のレフ・コンスタンティノフスキー氏らは、文書内のすべての客観的な主張を特定する方法を提案しました。しかし、これは容易な作業ではありません。概念実証の段階で、彼らのチームはテキストに注釈をつけるための体系を開発しました。その結果、得られた約5,000件のクレームと非クレームのデータセットは、いくつかの機械学習モデルのトレーニングに利用されました。最も優れたモデルは、クレームを90%の精度で識別する能力を持っています。しかし、主観的な主張や将来の予測など、より細かな分類を行う試みは成功しづらいとされています。

主張を裏付けるか反駁するための事実を集めることも同様に困難です。2018年から、この目的のためのワークショップやコンテストが毎年開催されています。参加する多くのワーキンググループは、Wikipedia APIを使用しています。抽出された事実と主張をベクトルに変換し、ソフトウェアは検証可能性の尺度としてスカラー積を計算します。この尺度が小さいほど、主張の実証性は低くなります。通常、この方法はサンプルデータセットで非常にうまく機能しますが、70%、80%、または90%の精度というのは、おそらく、検索エンジンが依然として大量のナンセンスを生成していることを意味します。ChatGPTやBardが偶然に見つけたような例を挙げるまでもありません。「XYが最初にABを実行した」という主張は、誰かが反例を思いつくまでは真実です。

興味深いことに、公開された数少ない大規模な言語モデルを使用したアプローチの1つは、Google、OpenAI、またはMicrosoftによるものではなく、Meta AIのAngela Fan氏らによるものです。彼らは、抽出されたステートメントから質問を作成し、インターネット検索を利用して質問を調査し、検索結果から回答を生成する言語モデルを訓練しました。ただし、このシステムは完全に自動化されたファクトチェッカーを目指したものではありませんでした。むしろ、Fan氏らは、質問と回答の形式で自動的に生成された要約が、人間のファクトチェッカーがテキストを迅速かつ正確に評価するのに役立つことを示そうとしました。

また、Vlachos氏は、主張が真実か虚偽かについての最終的な判断をユーザーに委ねることを好むと述べています。「私の研究では『真実か嘘か』という言葉を使うことを避けています」と彼は言います。「私は『証拠による裏付けまたは反駁』について話します。」プロのファクトチェッカーでさえ、これが真実である、これが虚偽であると断定するシステムは不要であると彼は確信しています。「彼らに必要なのは証拠だけで、自分たちで判断できればそれで満足です。そして実際に、彼らはそうします。」私たちは、適切な証拠にアクセスできるかどうかを自分で判断し、それに基づいてこの事象についてどう思うかを自分で決めるべきだと彼は主張します。

「私たちはお互いを精査し、お互いに質問するのが得意ですが、全知全能の機械が何を生み出すかについては問うのが苦手です」と彼は言います。私たちが急いで訓練する必要があるのはまさにこの能力であり、自分自身に疑問を抱くのと同じ方法で、言語モデルの結果に疑問を持ち、異なる視点から捉える練習をすることです。「これは、疑問を持ち、それに取り組むことを学ぶ必要があります。」

このページを評価する

BLOG

ChatGPT & Co.: BSIはセキュリティに対する「前例のない課題」を認識しています
ブログ

ChatGPT & Co.: BSIはセキュリティに対する「前例のない課題」を認識しています

サイバーセキュリティの現状は脅威であり、「いつでもエスカレートする可能性がある」とフェーザー内務大臣が警告しています。BSIは、国内のさらに多くのシステムをスキャンしたいと考えています。

金曜日:ChatGPTのニュースにもかかわらず、ヨーロッパ人3人がISSミッションに参加している一方、Bingの市場シェアは依然として低いままです
ブログ

金曜日:ChatGPTのニュースにもかかわらず、ヨーロッパ人3人がISSミッションに参加している一方、Bingの市場シェアは依然として低いままです

ChatGPT 検索エンジンにはボーナスなし + ISS ミッションは非公開で開始 + アイオワ対 TikTok + インディゲームのトレーラー + フランス対 Yahoo + 現金支払い限定

AIテキストジェネレーターのChatGPTが魅力的である理由
ブログ

AIテキストジェネレーターのChatGPTが魅力的である理由

変圧器ネットワークについて ChatGPTは、OpenAIが2020年に開発したGPT-3という言語モデルを基にしています。GPT-3は、ほぼ完璧な英語でさまざまなスタイルのテキストを生成する能力を持っています。このニューラルネットワークは、いわゆる事前学習を通じてインターネットからのテラバイト単位のテキストデータを学習しました。これが名前に「P」が含まれる理由です。また、生成するテキストがトレーニングデータ(名前の「G」)とできるだけ近くなるように学習しています。