AIテキストジェネレーターのChatGPTが魅力的である理由

AIテキストジェネレーターのChatGPTが魅力的である理由

変圧器ネットワークについて

ChatGPTは、OpenAIが2020年に開発したGPT-3という言語モデルを基にしています。GPT-3は、ほぼ完璧な英語でさまざまなスタイルのテキストを生成する能力を持っています。このニューラルネットワークは、いわゆる事前学習を通じてインターネットからのテラバイト単位のテキストデータを学習しました。これが名前に「P」が含まれる理由です。また、生成するテキストがトレーニングデータ(名前の「G」)とできるだけ近くなるように学習しています。

GPT-3はトランスフォーマーネットワーク(名前の「T」)で、新しいアイデアを取り入れた比較的新しいネットワーク構造です。トランスフォーマーは、各層でアテンションメカニズムを利用しています。このメカニズムは、関連性の低い情報から学習する際に最小限のニューラルネットワークとして機能します。このメカニズムを通じて、トランスフォーマーは特定のデータへの焦点を絞る学習が可能になります。この技術により、前例のない規模でニューラルネットワークのトレーニングが可能になりました。GPT-3には1750億のパラメータがあり、広大な言語知識と世界知識を格納するには十分な容量があります。

GPT-3は、インターネット上の内容をただコピーするかのように、またはそれを模倣したかのようなテキストを生成する能力があります。言語モデルに対して人間のような対話を求めると、多くの場合、答えが曖昧であったり、不正確であったり、時には反問が返ってくることがあります。GPT-3の言語能力は疑う余地がないものの、特定の質問に対して人間のように満足のいく答えを提供するには至っていません。OpenAIはこの問題を「調整」と表現しています。

ニューラルネットワークのトレーニングでは、2つの主な問題が生じることがあります。トレーニングデータがパラメータに大きな変動をもたらすため、学習アルゴリズムが前後にジャンプすることがあります。これは、データセットに多くのノイズが含まれており、ネットワークがその構造を認識できない場合に発生することがあります。また、データが明確な指示を与えないため(勾配が小さすぎる)、アルゴリズムがほとんどパラメータを変更しないこともあります。OpenAIはGPT-3において、後者の問題に直面していました。では、言語モデルが巧妙に質問をかわした場合、どのようにして大きな勾配を正確に計算すればよいのでしょうか。

AIトレーニングについて

AIトレーニングについて

解答を見つけるために、研究者たちは強化学習からのアイディアを利用しました。これには、ゲーム環境での作業と、場合によっては報酬や罰を受けるエージェントのトレーニングが含まれます。この分野の研究者たちは通常、1980年代のピクセル化されたアーケードゲームを使用してAIをテストします。問題は、ポイントが一連のアクションの後にのみ与えられるため、AIがトレーニング中にどの動きが最終的にポイントを獲得するために重要であるかを自ら見つけ出す必要があることです。通常の解決策は、小規模なニューラルネットワークを訓練し、間もなくポイントが得られるかどうかを予測することです。次に、学習アルゴリズムがこの評価を使用してエージェントに対して、すべての動きに対する学習シグナルを提供します。

例えば、「Pong」や「Breakout」のようなゲームでは、ゲーム自体がポイント獲得の機会を多く提供し、AIにはそれほど多くの選択肢が必要ないため、追加の機能は必要ありません。しかし、物理シミュレーションで棒人間に宙返りを教える場合、操作すべき個別の関節が多すぎるため、正しい動作シーケンスを偶然に見つける確率は事実上ゼロに近いです。床上でひねりながら横になっている棒人間が小刻みに動くのを見ると、その動きがうまくいかないことがすぐにわかります。

動く棒人間の学習プロセス

OpenAIは、この専門知識を活用しました。人々に棒人間の2つの動きを判断してもらい、その情報を人の言動を予測するためのニューラルネットワークのトレーニングデータとして使用しました。その後、OpenAIはこのネットワークを使用して強化学習エージェントを訓練し、より巧妙に動作させるために、人々に再度判断を依頼しました。このプロセスを何百回も繰り返した結果、棒人間は問題なく宙返りを行うことができるようになりました。OpenAIは、このアプローチを少し複雑な損失関数と組み合わせ、「近似ポリシー最適化」(略してPPO)と名付けました。

損失関数は、学習アルゴリズムがニューラルネットワークに報酬を与えるタイミングやペナルティを課すタイミングを決定します。効果的なトレーニングを行うためには、関数は各学習ステップで顕著な進歩を達成するために十分なフィードバックを提供する必要がありますが、ネットワークが以前の知識をすべて捨てるほど極端ではありません。近年、ニューラルネットワークの進歩のほとんどは、異なるネットワーク構造ではなく、より優れた損失関数によってもたらされています。

棒人間から質問者への応用

訓練された損失関数から得られたデータを人々が生成するというアイディアは、アーケードゲームや物理シミュレーションだけでなく、質疑応答ゲームでも機能します。そこで、OpenAIはGPT-3にさまざまな方法で質問に答えさせ、人々に報酬を支払い、回答の有用性に応じてさまざまな回答を並べ替えました。この比較的小さなデータセットを使用して、小規模なネットワークを訓練し、それをPPOで使用してGPT-3を最適化しました。以前の能力を完全に忘れないように、彼らは古いパターンに従ってトレーニングランを継続しました。PPOは再び大きな勾配を実現し、追加のニューロンを必要とせずに言語モデルが改善されました。OpenAIは、命令によりよく従うために、再訓練されたGPT-3 InstructGPTと呼ばれるバージョンを使用して調整を改善しました。

最終ステップでは、OpenAIによって以前の会話のコンテキストを言語モデルに統合することにより、ChatGPTがInstructGPTから派生しました。これには質問とあなた自身の回答の両方が含まれます。GPT-3は2048トークン(つまり、英語テキストの場合は約8000文字)に制限されていましたが、ChatGPTはチャットからのテキストの量にかかわらず考慮されます。

このページを評価する

BLOG

ChatGPT & Co.: BSIはセキュリティに対する「前例のない課題」を認識しています
ブログ

ChatGPT & Co.: BSIはセキュリティに対する「前例のない課題」を認識しています

サイバーセキュリティの現状は脅威であり、「いつでもエスカレートする可能性がある」とフェーザー内務大臣が警告しています。BSIは、国内のさらに多くのシステムをスキャンしたいと考えています。

金曜日:ChatGPTのニュースにもかかわらず、ヨーロッパ人3人がISSミッションに参加している一方、Bingの市場シェアは依然として低いままです
ブログ

金曜日:ChatGPTのニュースにもかかわらず、ヨーロッパ人3人がISSミッションに参加している一方、Bingの市場シェアは依然として低いままです

ChatGPT 検索エンジンにはボーナスなし + ISS ミッションは非公開で開始 + アイオワ対 TikTok + インディゲームのトレーラー + フランス対 Yahoo + 現金支払い限定

AIテキストジェネレーターのChatGPTが魅力的である理由
ブログ

AIテキストジェネレーターのChatGPTが魅力的である理由

変圧器ネットワークについて ChatGPTは、OpenAIが2020年に開発したGPT-3という言語モデルを基にしています。GPT-3は、ほぼ完璧な英語でさまざまなスタイルのテキストを生成する能力を持っています。このニューラルネットワークは、いわゆる事前学習を通じてインターネットからのテラバイト単位のテキストデータを学習しました。これが名前に「P」が含まれる理由です。また、生成するテキストがトレーニングデータ(名前の「G」)とできるだけ近くなるように学習しています。 GPT-3はトランスフォーマーネットワーク(名前の「T」)で、新しいアイデアを取り入れた比較的新しいネットワーク構造です。トランスフォーマーは、各層でアテンションメカニズムを利用しています。このメカニズムは、関連性の低い情報から学習する際に最小限のニューラルネットワークとして機能します。このメカニズムを通じて、トランスフォーマーは特定のデータへの焦点を絞る学習が可能になります。この技術により、前例のない規模でニューラルネットワークのトレーニングが可能になりました。GPT-3には1750億のパラメータがあり、広大な言語知識と世界知識を格納するには十分な容量があります。 GPT-3は、インターネット上の内容をただコピーするかのように、またはそれを模倣したかのようなテキストを生成する能力があります。言語モデルに対して人間のような対話を求めると、多くの場合、答えが曖昧であったり、不正確であったり、時には反問が返ってくることがあります。GPT-3の言語能力は疑う余地がないものの、特定の質問に対して人間のように満足のいく答えを提供するには至っていません。OpenAIはこの問題を「調整」と表現しています。 ニューラルネットワークのトレーニングでは、2つの主な問題が生じることがあります。トレーニングデータがパラメータに大きな変動をもたらすため、学習アルゴリズムが前後にジャンプすることがあります。これは、データセットに多くのノイズが含まれており、ネットワークがその構造を認識できない場合に発生することがあります。また、データが明確な指示を与えないため(勾配が小さすぎる)、アルゴリズムがほとんどパラメータを変更しないこともあります。OpenAIはGPT-3において、後者の問題に直面していました。では、言語モデルが巧妙に質問をかわした場合、どのようにして大きな勾配を正確に計算すればよいのでしょうか。 AIトレーニングについて 解答を見つけるために、研究者たちは強化学習からのアイディアを利用しました。これには、ゲーム環境での作業と、場合によっては報酬や罰を受けるエージェントのトレーニングが含まれます。この分野の研究者たちは通常、1980年代のピクセル化されたアーケードゲームを使用してAIをテストします。問題は、ポイントが一連のアクションの後にのみ与えられるため、AIがトレーニング中にどの動きが最終的にポイントを獲得するために重要であるかを自ら見つけ出す必要があることです。通常の解決策は、小規模なニューラルネットワークを訓練し、間もなくポイントが得られるかどうかを予測することです。次に、学習アルゴリズムがこの評価を使用してエージェントに対して、すべての動きに対する学習シグナルを提供します。 例えば、「Pong」や「Breakout」のようなゲームでは、ゲーム自体がポイント獲得の機会を多く提供し、AIにはそれほど多くの選択肢が必要ないため、追加の機能は必要ありません。しかし、物理シミュレーションで棒人間に宙返りを教える場合、操作すべき個別の関節が多すぎるため、正しい動作シーケンスを偶然に見つける確率は事実上ゼロに近いです。床上でひねりながら横になっている棒人間が小刻みに動くのを見ると、その動きがうまくいかないことがすぐにわかります。 動く棒人間の学習プロセス OpenAIは、この専門知識を活用しました。人々に棒人間の2つの動きを判断してもらい、その情報を人の言動を予測するためのニューラルネットワークのトレーニングデータとして使用しました。その後、OpenAIはこのネットワークを使用して強化学習エージェントを訓練し、より巧妙に動作させるために、人々に再度判断を依頼しました。このプロセスを何百回も繰り返した結果、棒人間は問題なく宙返りを行うことができるようになりました。OpenAIは、このアプローチを少し複雑な損失関数と組み合わせ、「近似ポリシー最適化」(略してPPO)と名付けました。 損失関数は、学習アルゴリズムがニューラルネットワークに報酬を与えるタイミングやペナルティを課すタイミングを決定します。効果的なトレーニングを行うためには、関数は各学習ステップで顕著な進歩を達成するために十分なフィードバックを提供する必要がありますが、ネットワークが以前の知識をすべて捨てるほど極端ではありません。近年、ニューラルネットワークの進歩のほとんどは、異なるネットワーク構造ではなく、より優れた損失関数によってもたらされています。 棒人間から質問者への応用 訓練された損失関数から得られたデータを人々が生成するというアイディアは、アーケードゲームや物理シミュレーションだけでなく、質疑応答ゲームでも機能します。そこで、OpenAIはGPT-3にさまざまな方法で質問に答えさせ、人々に報酬を支払い、回答の有用性に応じてさまざまな回答を並べ替えました。この比較的小さなデータセットを使用して、小規模なネットワークを訓練し、それをPPOで使用してGPT-3を最適化しました。以前の能力を完全に忘れないように、彼らは古いパターンに従ってトレーニングランを継続しました。PPOは再び大きな勾配を実現し、追加のニューロンを必要とせずに言語モデルが改善されました。OpenAIは、命令によりよく従うために、再訓練されたGPT-3 InstructGPTと呼ばれるバージョンを使用して調整を改善しました。 最終ステップでは、OpenAIによって以前の会話のコンテキストを言語モデルに統合することにより、ChatGPTがInstructGPTから派生しました。これには質問とあなた自身の回答の両方が含まれます。GPT-3は2048トークン(つまり、英語テキストの場合は約8000文字)に制限されていましたが、ChatGPTはチャットからのテキストの量にかかわらず考慮されます。