AI分野の新星で OpenAI に対する欧州の回答とも言われる Mistral は、2024 年 9 月11 日に初のマルチモーダル AI モデル Pixtral 12B を発表した。画像とテキストの両方を処理できるこの革新的なモデルは、ミストラルをOpenAIやAnthropicのような他の業界大手と連携させ、AIの展望における重要な前進を意味する。
Pixtral 12BはMistralの既存のテキストベース・モデルNemo 12Bをベースに構築されており、120億という驚異的なパラメータ-特性を誇り、問題解決能力を高めている。ファイルサイズは24GBと大きく、OpenAIのGPT-4oやAnthropicのClaudeファミリーと同様に、画像のキャプション付けやオブジェクトのカウントといった複雑なタスクを処理できるように設計されている。
このモデルの機能は、URLから画像を分析したり、バイナリからテキストへのエンコード方式であるbase64でエンコードされた画像を分析したりするところまで拡張されている。画像のサイズに関係なく、任意の数の画像に関するクエリに対応できるように設計されており、その強固な分析能力を示しています。
MistralはPixtral 12BをGitHubとAIと機械学習開発のためのプラットフォームであるHugging Faceでダウンロードできるようにした。Apache 2.0ライセンスでリリースされているため、ユーザーは制限なくモデルをダウンロードし、微調整し、利用することができる。この柔軟性は、ミストラルの広報担当者が電子メールで確認したもので、同スポークスマンは、このモデルは個人的な目的でも商業的な目的でも使用できると述べた。
ミストラルのデベロッパーリレーションの責任者であるソフィア・ヤンは、X(旧ツイッター)で、ピクストラル12Bが間もなくミストラル独自のプラットフォームであるLe ChatとLe Plateformeでテストできるようになると発表した。これらのプラットフォームは、ミストラルのチャットボットやAPIサービスを通じて、ユーザーとモデルとの幅広い関わりを促進することを目的としている。
しかし、ピクストラル12Bの使用には潜在的な論争がないわけではない。多くの生成AIモデルと同様に、Pixtral 12Bはウェブ上の膨大な量の公開データに基づいて学習されている可能性が高い。こうした懸念は、OpenAIやMidjourneyのような企業が著作権者からの法的挑戦に直面している、「公正使用」権の下での公共データのスクレイピングの合法性をめぐる現在進行中の議論を浮き彫りにしている。
Mistral は技術的な進歩に加え、最近重要な資金的裏付けを確保し、General Catalystが主導する6億4500万ドルの資金調達を完了した。設立からわずか1年余りで、マイクロソフトの少数株主であるにもかかわらず、ミストラルの戦略的アプローチには、オープンモデルの無料公開、マネージド・バージョンの有料化、コンサルティング・サービスの提供などがあり、世界のAI市場における手ごわいプレーヤーとしての地位を確立している。
今回のPixtral 12Bのリリースは、AI技術の進歩に対するミストラルのコミットメントを示すだけでなく、ビジュアルとテキストデータ処理を融合させた汎用性の高いツールの作成において、同社を最前線に位置づけ、業界を超えた多様なアプリケーションに対応します。