Google が OpenAI に 100 万時間の YouTube 動画を使った GPT-4 の訓練を許可

今週4月初め、OpenAI、Google、Metaのような多くのAI企業が、高品質のトレーニングデータを収集するために壁にぶつかった。しかし、その陰険な手口は、AI著作権法のぼんやりとしたグレーゾーンに陥るだけだった。OpenAIは、Whisper AIモデルを開発するために、100万時間を超えるYouTubeの動画を書き写し、トレーニングしたと報じられているGPT-4。Times』紙は、オープンエイのグレッグ・ブロックマン社長が個人的に使用済み動画の収集に関与していたと書いている。

NYタイムズが報じたところによると、OpenAIはこの方法が批判を浴びることを認識していた。しかし、彼らはそれが公正な使用であると信じ、それを進めた。Googleもまた、クリエイターの著作権を侵害し、同様の行為に関与しているとされている。

YouTubeのポリシーについて質問されたニール・モハンCEOは、”私たちは、トランスクリプトやビデオビットのようなものをダウンロードすることを許可していません。”と答えた。ニールはまた、今週、OpenAIが動画生成モデル Sora AI を訓練するためにYouTubeを使用した可能性について語った。彼は、OpenAIがYouTubeのデータを使用したという質問に対して、「使用されたかもしれないし、されていないかもしれないという報告を見た。私自身は何も情報を持っていない”

タイムズ紙の記事では、OpenAIはYouTube動画、オーディオブック、ポッドキャストを他のリソースに吹き込んだ後に書き起こすことを議論していると述べられている。しかし、チェスの手のデータベース、GitHubのコンピューターコード、Quizletの学校の授業内容などのデータでモデルを訓練していた。

タイムズ紙が捉えた議論の中で、Meta社のAIチームは、OpenAIと歩調を合わせる努力の中で、著作権で保護された素材を無許可で使用したことを認めた。同社は、インターネット上で入手可能なほぼすべての書籍、エッセイ、詩、ニュース記事など、広範なリソースを調査した。書籍のライセンスを取得したり、大手出版社を買収するなどの選択肢が、潜在的な解決策として検討された。さらに、ケンブリッジ・アナリティカ事件を受けて実施されたプライバシー保護措置によって、消費者データの活用に対するメタのアプローチは制約を受けた。

今週、『ジャーナル』紙は、2028年までにAI企業が新しいコンテンツを上回る可能性があると書いた。より広範なAIトレーニングの世界と、Googleや OpenAIを含む企業は、モデルのためのトレーニングデータを迅速に蒸発させるためにやりくりしている。モデルがより多くのデータを吸収すればするほど、より優れたものになるだろう。

The Journal紙が月曜日に報じたところによると、AI開発者が直面するデータ不足問題の解決策として提案されているのは、AIモデル自身が生成した「合成」データの活用、あるいは「カリキュラム学習」の採用だという。後者の戦略では、質の高いデータをモデルに体系的に導入することで、最小限の情報でより効率的かつ知的な概念間の結びつきを形成できるようにすることを目指す。しかし、こうした手法の有効性はまだ明確に確立されていない。また、企業によっては、認可の有無にかかわらず、利用可能なあらゆるデータを利用するという戦略もあるが、これは近年、いくつかの法的な問題に発展している。この方法は特に論議を呼び、複雑な問題をはらんでいる。