レポートによると、ChatGPTは100万時間分のYouTube動画を使ってトレーニングされたそうです

レポートによると、ChatGPTは100万時間分のYouTube動画を使ってトレーニングされたそうです

OpenAIが自動文字起こしを用いた言語モデルでリードしているとされています。これは、さまざまな権利を侵害する恐れがあります。

OpenAIは、「Whisper」というプログラムを利用し、YouTubeの親会社であるGoogle、Alphabet、または動画の製作者に通知することなく、ChatGPTの訓練データとして使用するため、YouTubeから約100万時間分の動画を準備したと報じられています。これは、OpenAI、Google、そしてその関連企業の複数の情報源に基づく、ニューヨーク・タイムズが報じた内容です。

その結果、OpenAIは2021年の終わりには訓練用の教材が不足しているとされています。率直に言えば、インターネットは「枯渇」したのです。AIスタートアップは、既に公開されているすべての英語のテキストを訓練データへと変換していました。生成型AIの現在のモデルでは、以前に処理された訓練素材が多ければ多いほど、より良い結果をもたらします。

そこで、タイムズ紙によれば、OpenAIはWhisperツールを通じて、YouTubeの動画の音声を大量にテキスト化する作業を始めたとのことです。動画プラットフォーム自体が提供する自動生成された字幕の他に、Adobe Premiereなどの他のプログラムでもこの文字起こしを高品質で行えるようになりました。同紙は現在、OpenAIがコンテンツをAIの訓練に使用した疑いで法的な争いにあると報じており、さらにGoogleは確かにこの問題に気付いていたと述べています。

Googleは介入しなかった

Googleは介入しなかった

しかし、GoogleはYouTubeやGoogleドキュメントなど、他のサービスのコンテンツを既に自社のAIモデルの訓練に使用していたため、特に措置を講じませんでした。ニューヨーク・タイムズによると、Googleは動画クリエイターの権利を侵害している可能性があることを認識していたそうです。現在、特にアメリカでは、適切なライセンス契約なしにAI訓練のために著作権で保護された素材を使用することに対する訴訟やその他の苦情が増えています。タイムズ紙によると、昨年だけでアメリカ著作権局は個人、企業、その他の団体からこの問題に関する苦情を1万件以上受け取ったとのことです。

近年、GoogleやFacebookなどの多くの技術企業がサービス利用規約を変更し、サービスを使用する前に自社で作成したAI訓練教材の使用に同意を求めるようになりました。その見返りとして、これらの企業は他の企業がデータにアクセスし、自社のサービスに使用することを禁止しています。OpenAIは、YouTubeキャンペーンに先立つ社内の議論で、「フェアユース」というアメリカの法的概念を取り上げたとされています。

ライセンスは依然として例外です

EUのAI法などにより人工知能に関する法的な規制が強化されている中、一部の企業は現在データソースとの間に明確なライセンス契約を結んでいます。例として、IPO前にGoogleと契約を交わしたRedditがあります。Redditユーザーのデータは、年間6000万米ドルでGoogleに提供される予定です。

YouTube動画の100万時間、またはトレーニング教材としての実行時間が114年以上にも及ぶという数字は、一見非常に大きなものに思えますが、このプラットフォームが急速に成長を続けていることを考慮する必要があります。2019年にはGoogleが、YouTubeには毎分約500時間の動画がアップロードされていると発表しました。おそらく、これは現在さらに大幅に増加しているでしょう。これらの古いデータに基づくと、33時間少々で、新たなまたは新しく編集されたコンテンツが100万時間を超える量に達することを意味します。OpenAIが処理したのは、利用可能なコンテンツのほんの一部である可能性があります。選択基準がどのようなものであったのかについての疑問は、依然として明らかにされていません。

BLOG

ChatGPT & Co.: BSIはセキュリティに対する「前例のない課題」を認識しています
ブログ

ChatGPT & Co.: BSIはセキュリティに対する「前例のない課題」を認識しています

サイバーセキュリティの現状は脅威であり、「いつでもエスカレートする可能性がある」とフェーザー内務大臣が警告しています。BSIは、国内のさらに多くのシステムをスキャンしたいと考えています。

金曜日:ChatGPTのニュースにもかかわらず、ヨーロッパ人3人がISSミッションに参加している一方、Bingの市場シェアは依然として低いままです
ブログ

金曜日:ChatGPTのニュースにもかかわらず、ヨーロッパ人3人がISSミッションに参加している一方、Bingの市場シェアは依然として低いままです

ChatGPT 検索エンジンにはボーナスなし + ISS ミッションは非公開で開始 + アイオワ対 TikTok + インディゲームのトレーラー + フランス対 Yahoo + 現金支払い限定

AIテキストジェネレーターのChatGPTが魅力的である理由
ブログ

AIテキストジェネレーターのChatGPTが魅力的である理由

変圧器ネットワークについて ChatGPTは、OpenAIが2020年に開発したGPT-3という言語モデルを基にしています。GPT-3は、ほぼ完璧な英語でさまざまなスタイルのテキストを生成する能力を持っています。このニューラルネットワークは、いわゆる事前学習を通じてインターネットからのテラバイト単位のテキストデータを学習しました。これが名前に「P」が含まれる理由です。また、生成するテキストがトレーニングデータ(名前の「G」)とできるだけ近くなるように学習しています。