2024年5月13日、OpenAIは「GPT-4o」という名前の新しいAIフラッグシップモデルを発表した。o」は「Omni(オムニ)」の略で、テキスト、音声、動画を入力とし、出力も可能なモデルです。 GPT-4oは、”GPT-4レベル “のインテリジェンスと能力を提供するが、複数のモダリティとメディアにわたってより改良されたバージョンである。
「GPT-4oは、音声、テキスト、視覚のすべてに対応しています。そしてこれは、私たち自身と機械とのインタラクションの未来を見ているため、非常に重要なことです」とオープンエーアイCTOのミラ・ムラティは語った。
GPT-4ターボは、画像とテキストを組み合わせて訓練されたモデルである。画像とテキストを分析し、画像からテキストを抽出し、提供された画像の内容も記述することができた。しかし、GPT-4oは音声に対して大きく改善されている。音声モードでは、音声合成モデルを使用して、よりアシスタントのようにChatGPTと対話します。リアルタイムのニュアンスにより、ChatGPTはユーザーの声のニュアンスを拾うことができ、さまざまなエモーションスタイルの声を生成することができる。デモでOpenAIは、能力モデルの音声能力が自然なだけでなく、ドラマチックで「感情的」であることを実証した。
GPT-4oは約50言語をサポートするマルチリンガルです。OpenAIのAPIでは、このモデルはGPT-4 Turboより2倍速く、より高いレート制限で安価です。
イベントの冒頭、OpenAIのCTOが製品を使いやすくするためのディスカッションを行った。OpenAIはUIを一新したデスクトップアプリを提供する予定だ。ミラ・ムラティ氏は、「私たちは、これらのモデルがますます複雑になっていることを知っています。しかし、私たちは、実際にインタラクションの経験がより自然で簡単になることを望んでいます。過去数年間、私たちはこれらのモデルのインテリジェンスを向上させることに注力してきました。しかし、使いやすさに関して大きな前進を遂げたのは今回が初めてです。”
GPT-4oは、無料ティア、プラス、チームプランのユーザーが利用可能で、メッセージの上限が5倍になります。OpenAIは今後数ヶ月のうちに、Plusユーザー向けにAlphaで改良されたChatGPT音声体験を展開する予定です。
OpenAIは、トレーニングデータをフィルタリングし、ポストトレーニングを通じてモデルの動作を洗練させるための安全技術を構築しました。また、音声出力にガードレールを提供する新しい安全システムも開発されました。