Sora：OpenAIのテキストからビデオへのモデル

OpenAIは2024年2月15日、Soraと呼ばれる新しい画期的なモデルを発表した。これは、印象的な結果を生成することができるテキストからビデオへの生成AIモデルです。ChatGPTがテキスト出力を生成するやDALL-E画像のように、Soraはプロンプトの説明に一致するビデオを生成する。Soraは、この種の技術を実証した最初のAIモデルではない。しかし、テスターやOpenAIのコントリビューターによって生成されたビデオの質の高さは、業界アナリストにとって注目に値する。

Soraとは何か？

Soraは60秒の動画を生成できるAIモデルです。生成される動画は、非常に詳細で、複雑なカメラの動きで鮮明で、複数の登場人物の生き生きとした感情を描いている。また、画像をもとに動画を作成することもでき、既存の映像に新たな要件を加えて拡張することもできる。Soraは、ビデオの好み、スタイル、ムードを理解しながら、ユーザーからの説明的なプロンプトを受け取ります。ユーザーは映像の照明、カメラアングル、色も指定できる。

OpenAIは、様々な解像度、アスペクト比、持続時間の動画と画像の両方に対して、テキスト条件拡散モデルでSoraを学習させた。一般的に大規模言語モデルは、テキスト・トークンを持つインターネット規模のデータで学習される。Sora AIには視覚的パッチがある。動画を低次元の潜在空間に圧縮してパッチにし、それを時空間パッチに分解する。OpenAIは、パッチは様々な動画や画像に対して生成モデルを訓練するための、拡張性の高い効果的な表現であると主張している。Soraは、様々な解像度、アスペクト比、持続時間の動画や画像を生成するために訓練される。

Soraは生映像を入力とし、時間的・空間的に圧縮された出力を生成するネットワークで訓練される。このネットワークは視覚データの次元を削減する。また、生成された潜在をピクセル空間にマッピングするデコーダーモデルで学習される。

OpenAIはDALL-E3のリキャプション技術を動画に適用した。このモデルは、動画のテキストキャプションを生成するために使用される、高度に記述的なキャプションモデルで学習されます。これにより、ビデオの品質だけでなく、テキストの忠実度も向上します。GPTはまた、短いユーザープロンプトを長い詳細なキャプションに変換するために活用されます)ビデオモデルに送信され、Soraは高品質のビデオを作成することができます。

Soraの画像・映像機能

Soraは、画像だけでなく動画も幅広く扱うことができる。静止画のDALL-Eをアニメーションさせたり、動画をループさせたり、動画を時間的に前方や後方に伸ばしたりすることができます。

この拡散モデルは、2つの入力ビデオ間の補間にも使用できます。こうすることで、ユーザーは異なる被写体やシーン構成でシームレスなトランジションを作成することができます。

このモデルは、最大2048×2048の解像度の画像を生成することもできる。OpenAIは、ガウシアンノイズのパッチを1フレームの時間的範囲を持つ空間グリッドに配置することでこれを訓練しました。

時間、解像度、アスペクト比

Soraは、ネイティブのアスペクト比で異なるデバイス用のビデオを作成することができます。ワイドスクリーンの1920x1080pビデオ、縦長の1080×1920、そしてその中間のすべてをサンプリングできます。また、プロトタイピングのプロセスとして、フル解像度で作成する前に、低解像度で動画を作成することもできます。

一般的に、生成モデルをトレーニングする際、動画を正方形にトリミングすることで、視界の中に被写体の一部が映り込んでしまう。しかし、Soraはフレーミングを改善している。

Soraの応用

最新のテキストから動画への生成AIツールであるSORAは、編集経験がなくても簡単に動画を作成できるようになった。ゼロから動画を作成したり、動画に欠けているフレームを埋めたり、既存の動画を拡張したりするのにも使える。このAIモデルにより、高品質の動画を劇的に簡単に生成できるようになった。SORAの主な用途をいくつか紹介しよう。

映画制作者、コンテンツ制作者、ストーリーテラーがアイデアやコンセプトを視覚化し、好みのショット、アスペクト比、ムードで魅力的な動画を作成するのに役立つ。テキストスクリプトから映画の予告編、アニメーション、ドキュメンタリー、ショートフィルムを作ることができます。
ビデオ編集者やプロデューサーは、VFXや背景の変更、新しいキャラクターの追加など、クリエイティブな要素を追加してビデオを修正できます。視聴者は、自分の意見に基づいてパーソナライズされたインタラクティブなビデオを楽しむことができます。
教育者は、概念や文化現象を説明する教育ビデオを作成できます。学習者は、科学やその他の教科の理解を深めるのに役立つ、有益で魅力的な動画にアクセスできます。
コンテンツ制作者は、YouTube Shorts、Instagram、TikTokのようなソーシャルメディアプラットフォーム向けに、リールやストーリーのような短編動画を作成できます。
広告主やマーケティング担当者は、自社の製品やサービスを紹介するプロモーションビデオや広告を作成できる。Sora AIは、広告素材を作成するプロセスを従来の手段よりも比較的安価にすることを約束する。
デザイナー、映画制作者、イノベーターは、Soraを使ってプロトタイプやビジョンを作成し、テストすることができる。製品や映画のシーンをデザインしたり、未来を想像したりしながら、シナリオやアイデアを視覚化することができる。

Soraに代わるものは？

Soraの他にも、テキストから直接ビデオコンテンツを生成できる有名なオプションが数多く存在します。

Runway-Gen-2

Soraと同様、ウェブとiOSで利用可能なテキストからビデオへの生成AIツールで、RunwayとDiscordからアクセスできる。調査によると、ユーザーの73.53％がStable Diffusion 1.5よりも（Runway-Gen2）を、88.24％がText2LiveよりもRunway-Gen2を好んでいる。これはマルチモーダルAIシステムで、ビデオをビデオに、テキスト/画像をビデオに、テキストを画像に、画像を音声に、テキストを音声に、背景を削除、画像を拡大、色の等級などを変換する。

ユーザーは「ドライビングイメージ」を提供することで、あらゆる画像やプロンプトのスタイルをすべてのビデオフレームに転送できます。また、入力画像/プロンプトを適用することで、モックアップを完全にスタイル化されたアニメーションレンダリングに変換したり、テクスチャなしのレンダリングをリアルな出力に変換することもできます。Gen-1およびGen-2での限定編集が可能な無料プランから始まり、他のプランにはスタンダード、プロ、無制限があり、無制限のビデオ世代で月額76ドルとなっている。

Google Lumiere

Google Lumiereは、Space-Time-U-NetまたはSTUNetを使用してテキストまたは画像から動画を生成するAIモデルである。このテキストから動画への拡散モデルは、ゼロショット拡散モデルVideoPoetの後継モデルである。STUNetは、空間的な側面を処理し、物事の動きや時間的な変化を理解することで、シームレスな動画を作成する。LUMIEREは、1つのビデオにつき最大80フレームまでのスムーズなプロセスでビデオを作成する。ルミエールの特徴として、スタイル生成、イメージからビデオへの生成、シネマトグラフィー、インペインティングがあります。

Pictory

PictoryはAIを搭載したビデオ編集ツールです。コンテンツマーケティング担当者、学習・開発担当者、教育担当者、ビジネス担当者・組織、デジタルマーケティング担当者、エンタープライズコンテンツチームが使用できます。Pictoryの特徴は、AIビデオエディターとジェネレーター、AI字幕とキャプション、AIビデオメーカー、音声ジェネレーター、AIビデオテンプレートです。高度な人工知能により、豊富な動画コンテンツから重要なインサイトを抽出し、スクリプトを説得力のある動画セールスレターに変換し、ブログエントリーを魅力的な動画に変身させ、動画に自動的にキャプションを埋め込みます。Pictoryは、300万以上のロイヤリティフリーのビデオ、画像、音楽トラックを持っており、ユーザーに広大なメディアライブラリを提供します。ユーザーは無料トライアルが可能だが、スタータープランは月額19ドルからで、30本のビデオ作成、最大600分の文字起こし、5,000曲の音楽トラックを含むことができる。

Synthesia

YouTube Shorts、リール、ストーリーなどの動画コンテンツは、今日のメディアの主流である。動画は楽しいものですが、その制作には大きな課題があります。プロのビデオ編集者やコンテンツ・クリエーターから趣味の人まで、質の高いビデオを作るには、専門知識、スキル、適切なツールが必要です。

幸いなことに、現在ではAI技術が、既存の映像の編集からテキスト説明からの新しい動画の生成まで、動画に関連するさまざまな作業を支援しています。Synthesiaは、140以上の言語で話すことができる160以上のアバターを取り揃えており、そのソリューションを提供している。ユーザーは、スターター、クリエイター、エンタープライズなど、ニーズに応じてより包括的なプランに移行する前に、無料デモでその機能を試すことができる。Synthesiaはウェブブラウザのみで動作するが、企業向けプランの価格設定はユーザーシート数によって異なるため、見込み顧客にとってはやや不透明なままである。

Soraの限界

OpenAIは、Soraにはシミュレーターとして多くの限界があると述べている。このモデルは、ガラスが砕けるような基本的な相互作用の物理を生成する能力がまだない。原因と結果を理解していない。

また、物体の自発的な出現を伴う長時間のサンプルでは、モデルは矛盾を生じている。Soraの信頼性はまだ不明だ。OpenAIのデモは非常に質が高いが、これらのデモにおける選択バイアスの程度は不明である。テキストを画像に変換するアプリケーションでよく行われるのは、複数の画像（多くの場合10～20枚）を生成し、その中から最も精細な1枚を選択することだ。OpenAIのチームが、発表で紹介された高品質の動画を得るために、何本の動画を作成したかは明らかにされていない。もし、使用可能な動画を得るために何百、何千もの動画を生成しなければならないのであれば、普及の妨げになりかねない。Soraの真の性能は、広く利用されるようになって初めて明らかになるだろう。

Soraのリスクは？

Soraは新しいモデルであるため、リスクは完全には分かっていない。しかし、おそらく他のテキストから画像へのモデルと同じようなものになるだろう。AI動画が画像生成と同じように進歩すれば、欠陥を発見するのは難しくなり、一般的ではなくなるだろう。

Soraは潜在的に、露骨な内容、ヘイトイメージ、違法行為の宣伝、特定の集団を蔑視する描写など、不適切な動画を生成する力を持っている。不適切なコンテンツの定義は、視聴者層（例えば、Soraを使用する子供と大人）や動画が生成されるコンテキスト（例えば、花火の安全性を教育するために作られた動画では、ポイントを強調するためにグラフィックなコンテンツが含まれる可能性がある）によって大きく異なります。

OpenAIが共有した動画例では、現実には存在しない空想のシーンが紹介されている。この能力によって、（実在の人物やシナリオが真実ではない偽りの動画Deepfakeを作成することが可能になるかもしれない。現実的でありながら偽造された、政治家やその対立候補をフィーチャーしたAI生成ビデオは、「意図的に誤解を招くような話を広め、信頼できる情報源に嫌がらせを向ける」能力を有している。この手口は、公的機関に対する信頼を損ない、異なる国やコミュニティに対する敵意を促進しようとするものだ。”

他の生成モデルと同様に、Soraも学習させるデータに依存する。このことは、学習データに文化的な偏見や固定観念が存在すると、生成された動画に同様の問題が現れる可能性があることを意味します。

よくある質問

Sora OpenAIはいつリリースされますか？

Soraがいつ一般公開されるかはまだわかりません。過去のOpenAIモデルのリリースによると、2024年の中頃にリリースされるバージョンもあります。

Soraは一般公開されているのですか？

いいえ。SORAのモデルを見ることができるのは、選ばれた専門家テスターとOpenAIのメンバーだけです。インターネット上でSoraが生成した動画は、彼らによってのみ生成され、テストされています。

どうすればSoraにアクセスできますか？

SoraはOpenAIの動画生成モデルであり、OpenAIを通じてアクセスすることができます。しかし、OpenAIはSoraのキャンセル待ちを発表していません。OpenAIによると、リリースとアクセスには数ヶ月かかるとのことです。

その間に使えるSoraの代替はありますか？

テキストを動画に変換するAIモデルの能力を知るために、ユーザーはiOSでアクセスできるRunway-Gen 2やDiscord、Google Lumiereのようなツールを試すことができます。

Sora AIは無料ですか？

Soraはまだ公開されていないため、Soraの料金プランに関する情報はない。しかし、GPT-4やDALL-E、その他の先進的なモデルと同様に、OpenAIはプレミアムサービスに課金している。