OpenAI、コードネーム “Strawberry “と呼ばれる極秘技術を開発中

OpenAIは2024年7月12日、社内で “Strawberry “というコードネームで呼ばれている大規模言語モデル用の高度な推論技術を積極的に開発していることを明らかにした。このプロジェクトは当初Q*と呼ばれ、特に複雑な問題解決や分析タスクの領域において、AIの能力を大きく飛躍させるものである。

Strawberryは、高度な科学や数学など、複雑な認知機能を必要とする分野に焦点を当て、OpenAIのモデルの推論能力を大幅に強化するよう設計されている。このイニシアチブは(OpenAIの壁の中でさえ)秘密に包まれており、その潜在的な影響力と革新的な性質を強調している。

OpenAIによるStrawberryの特徴には、AIの問題解決能力、特に複数の論理的ステップと長期的な計画を必要とするタスクの大幅な強化が含まれる。現在のAIモデルは、推論プロセスに限界があるため、こうした複雑なシナリオに苦戦することが多い。Strawberryは、逐次的なアプローチと戦略的な先見性を必要とするタスクをナビゲートするモデルの能力を向上させることで、これを是正することを目指している。

Strawberryのもうひとつの特筆すべき特徴は、高度な自律的ウェブナビゲーション機能である。これは、AIが常識的な推論や論理的誤謬で直面する典型的な課題を考えると、重要な進歩である。Strawberryは、AIにウェブベースの調査を実行させることで、現実世界の問題解決におけるAIの潜在的な用途と有効性を大幅に拡大する。

公開された内部文書によると、Strawberryは、現在市販されているAIの枠を超えた機能を備えている。開発中の主要機能のひとつは、”ディープ・リサーチ “を実行する能力だ。この機能は、AIが自律的に包括的なオンライン調査を行い、人間の介入なしにデータを収集・分析することを可能にする。これは、AIシステムとインターネット上の情報との関わり方におけるパラダイムシフトを意味し、指示の受動的な受信者から知識の積極的な探求者への移行を意味する。

ストロベリーの開発には、膨大なデータセットに対する最初の包括的なトレーニングの後、AIの機能を洗練させる高度な「ポスト・トレーニング」技術が含まれる。この技術には微調整プロセスも含まれ、AIの出力は、質の高い回答例と質の低い回答例の両方を提供する人間の評価者からのフィードバックに基づいて綿密に調整される。この手法により、AIのパフォーマンスが実世界のアプリケーションに最適化され、その信頼性と有効性が高まる。

Strawberryのコンセプトフレームワークは、2022年にスタンフォード大学が開発した「Self-Taught Reasoner」(STaR)手法と共通点がある。この革新的なアプローチは、AIモデルが学習データを自己生成することを可能にし、継続的な学習と改善を促進する。スタンフォード大学のノア・グッドマン教授は、OpenAIプロジェクトには関与していないものの、STaR方式についてコメントし、AI知能を人間の能力を超えて推進する可能性を指摘した。彼は、このような進歩の二面性を強調し、重要な倫理的考慮事項とともに、エキサイティングな可能性を指摘した。

OpenAIは、ロングホライズンタスク(LHT)を必要とするシナリオにストロベリーを配備することを計画している。これらのタスクは、長期にわたる一連の行動の計画と実行を含み、高度な自律的戦略的思考を必要とする。ストロベリーは、研究結果に基づいて独自にタスクを実行する「CUA(Computer Using Agent)」と連携して運用され、AIの自律性を高めることが期待されている。

オープンAIは、AI技術の継続的な研究開発の重要性を強調している。同社の広報担当者は、「我々の目標は、AIモデルが人間の認知プロセスを反映した方法で世界を認識し、理解することです。AIの推論を継続的に強化することで、より洗練された有用なシステムが生まれると信じています」と述べた。しかし、ストロベリーに関する具体的な詳細については口を閉ざしたままであり、このプロジェクトが繊細で画期的なものであることを強調している。