欺瞞的ですが、ChatGPTのテキスト自動認識には多くの弱点が存在します

欺瞞的ですが、ChatGPTのテキスト自動認識には多くの弱点が存在します

機械によって書かれたテキストを認識するツールが増加していますが、本当にだまそうと思えば、それを出し抜くことも可能です。

ChatGPTの急速な普及に伴い、チャットボットと人間によるテキストを区別するツールの開発も急ピッチで進んでいます。現在、教師だけでなく、ボタンを押すだけで宿題を処理する方法を議論しているのは、学校や大学に限られません。機械によって生成された無意味なテキストが大量に出回る可能性が、言語モデルの製作者にとっても重大な問題となっています。

例えば、OpenAIは、GPTZeroやOriginality.aiなどのツールが以前に物議を醸した後、ChatGPTテキストを認識するための専用ツールであるOpenAI AI Text Classifierを驚くほど迅速に公開しました。

ChatGPTやその他のツールを検出する方法は?

しかし、機械が生成したテキストを機械を使って認識するアイデアはそれほど新しいものではありません。このテーマに関する科学論文は2010年代半ばにすでに出版されていました。OpenAI自身がGPT-2のリリースを躊躇し、言語モデルに関する多くの話題を呼んだ2019年に、初のAI検出器をリリースしました。その少し後には、Giant Language Model Test Roomが続き、どちらのプログラムもテキストがGPT-2によって生成されたかどうかを明示的にチェックします。

その後、この分野への関心は再び薄れました。おそらく次の2つの理由が考えられます。一つは、最初の大規模な言語モデルには明白な欠点があり、それは一目で明らかでした。もう一つは、数人のAI研究者を除いて、この問題に実際に関心を持っている人がほとんどいなかったことです。しかし、今、その状況が変わりつつあります。

ChatGPTやその他のツールを検出する方法は?

ニューラルネットワークを分類器として使用するという比較的明白なアイデアがあります。多くの例を使用してネットワークをトレーニングし、機械によって生成されたテキストと人間によるテキストを見分ける方法を学習するだけです。たとえば、OpenAIのGPT-2出力検出デモでは、GPT-2の例で訓練されたRoBERTaモデルを使用しています。

また、Giant Language Model Test Roomでは、異なる原理が用いられています。このソフトウェアは、関連する言語モデルが次の単語を完成させる確率を計算し、高確率の単語は緑色、低確率の単語は赤色、非常にまれな単語は紫色に色付けされます。これにより、モデルが通常は考えつかないような珍しい単語がテキストに含まれているかどうかを一目で確認できます。

さらに新しいツールであるDetectGPTは、文全体のレベルでこの方法の巧妙な変形を使用します。このツールは、特定の言語モデル(この場合はGPT-3)が文を生成する確率を計算し、その文を少し言い換えて新しい確率を算出します。元の文の確率が改変された文の確率よりも高い場合、それは言語モデルによる産物である可能性が高いです。なぜなら、言語モデルは常に複数の選択肢から最も高い確率で「良い出力」を選ぶからです。

非常に注目されているGPTZeroもテキストの確率に基づいていますが、これをいわゆる「困惑度」の計算に使用します。この指標は、自然言語処理(NLP)で言語モデルの品質を測るために用いられます。簡単に言えば、これは文中の次の単語がどれだけ予測しにくいかを数値で示します。優れた機械生成テキストは困惑度が低い一方で、人間のテキストには困惑度が高いことが多いです。

例えば、「今日の天気は晴れで暖かいです。気温は摂氏25度です。」という文は、「今日は太陽の光に照らされ、摂氏25度の燃えるような輝きを放っています。」と変更されると、元のテキストの単純で明確な単語が抽象的で詩的な単語に置き換えられるため、はるかに高い困惑値を示します。

最後に、John Kirchenbauerらはテキストに目に見えない透かしのようなものを焼き付ける方法を提案しています。この透かし入れソフトウェアは、言語モデルが低確率でのみ選択可能な単語リストを生成し、それが機械生成テキストでの出現頻度を低くすることを意味します。このリストはテキストごとに新たに作成され、テキストとともに公開されます。その後、テストプログラムは単にその確率が十分に低いかどうかを計算します。

このページを評価する

BLOG

ChatGPT & Co.: BSIはセキュリティに対する「前例のない課題」を認識しています
ブログ

ChatGPT & Co.: BSIはセキュリティに対する「前例のない課題」を認識しています

サイバーセキュリティの現状は脅威であり、「いつでもエスカレートする可能性がある」とフェーザー内務大臣が警告しています。BSIは、国内のさらに多くのシステムをスキャンしたいと考えています。

金曜日:ChatGPTのニュースにもかかわらず、ヨーロッパ人3人がISSミッションに参加している一方、Bingの市場シェアは依然として低いままです
ブログ

金曜日:ChatGPTのニュースにもかかわらず、ヨーロッパ人3人がISSミッションに参加している一方、Bingの市場シェアは依然として低いままです

ChatGPT 検索エンジンにはボーナスなし + ISS ミッションは非公開で開始 + アイオワ対 TikTok + インディゲームのトレーラー + フランス対 Yahoo + 現金支払い限定

AIテキストジェネレーターのChatGPTが魅力的である理由
ブログ

AIテキストジェネレーターのChatGPTが魅力的である理由

変圧器ネットワークについて ChatGPTは、OpenAIが2020年に開発したGPT-3という言語モデルを基にしています。GPT-3は、ほぼ完璧な英語でさまざまなスタイルのテキストを生成する能力を持っています。このニューラルネットワークは、いわゆる事前学習を通じてインターネットからのテラバイト単位のテキストデータを学習しました。これが名前に「P」が含まれる理由です。また、生成するテキストがトレーニングデータ(名前の「G」)とできるだけ近くなるように学習しています。