生成型事前学習型トランスフォーマ(GPT)シリーズは、近年、言語モデルの分野で最も注目すべき進歩のひとつとして登場しました。これらのモデルは、幅広いアプリケーションにおいて、人間のようなテキストを理解、生成、操作することを機械に可能にすることで、自然言語処理(NLP)を大幅に変革しました。初期のバージョンから洗練されたGPT-4まで、GPTファミリーはGPT-3.5、GPT-3.5 Turbo、GPT-4、画像生成用のDALL-Eのような専門的な亜種など、さまざまな反復を経て成長してきました。o1-previewやo1-miniなどの最新o1シリーズは、推論能力の強化に重点を置き、GPTフレームワークの機能をさらに拡張し続けています。
大規模なスケール、ディープアーキテクチャ、高度な文脈理解を特徴とするGPTモデルは、多くのNLPタスクに革命をもたらしました。これらのタスクには、質問応答、クリエイティブなコンテンツ生成、言語翻訳、テキスト要約などが含まれますが、これらに限定されません。その成功の秘訣は、何十億ものパラメータで構成される大規模なデータセットを用いた広範な事前トレーニングにあります。これにより、これらのモデルは、人間の言語における微妙な関係性や構造を捉えることができるようになりました。時が経つにつれ、GPTモデルの各反復は、効率性、理解力、複雑な推論を行う能力において大幅な改善をもたらしました。
こうした進歩により、GPTファミリーはAIが達成できることの限界を押し広げ、従来のNLPタスクだけでなく、クリエイティブな分野でも顕著な貢献を果たし、ユーザーとの対話を強化し、会話エージェントを開発し、コンテンツ作成を支援しています。これらのモデルは、幅広い業界の中心的な存在となり、開発者、研究者、企業がAIの力を活用して現実世界のさまざまな用途に役立てられるようになっています。
ChatGPTの上級GPTモデル
ここでは、進化、価格、性能に焦点を当てながら、高度なGPTバージョンを簡単に紹介する。
GPT-3
GPTモデルシリーズの第3バージョンはGPT-3と呼ばれている。このソフトウェアは、まるで人間が書いたかのように思えるほど独創的な段落を作成することができる。GPT-3モデルは、アクセス制限付きのクラウドベースのAPIからもアクセスできる。ユーティリティを使用するにはアクセスが必要だ。リリース以来、いくつかの魅力的なアプリケーションが生み出されている。GPT-2よりも100倍大きく、1750億以上のパラメーターを持っている。5,000億語のデータセットを使って訓練されている。
GPT-2は5,000億語のデータセット(Common Crawlとしても知られる)を使って学習される。このデータセットは、広範なインターネットとコンテンツ・リポジトリから収集される。その他、コード・スニペットの記述、迅速なアクティビティ、基本的な演算問題の解決など、予想外の能力も備えている。
GPT-3には、Ada、Babbage、Curie、Davinciの4つの言語モデルがある。最も強力なのはChatGPTで利用されているDavinciだが、他の3つも感情分析や要約オーサリングのような簡単な仕事にはまだ使える。コストは1,000トークンごとに決定される。50Kトークンを使うごとに、Davinciモデルに従って1ドルを支払うことになる。
GPT-3の4つのモデルは異なる価格帯を含んでいる。GPT-3のコストは、基本モデルのAdaの場合、1000トークンあたり0.0004ドルから始まる。同様に、Davinciモデルには1Kトークンあたり0.0300ドルでアクセスできる。
GPT-3.5
GPT-3.5シリーズは、GPT-3と同様にGPT-3から派生したモデルである。 GPT-3.5の特徴は、人間の価値観に基づいた一定のルールに従っていることで、強化学習と人間のフィードバック(RLHF)というプロセスによって統合されている。主な目標は、毒性を減らし、生成される出力の真実性を優先し、モデルをユーザーの意図により近づけることである。この進化は、言語モデルのモラルと責任ある適用を改善し、より信頼できる安全なユーザー体験を提供するための意図的な試みである。GPT-3.5は、GPTシリーズのGPT-3とGPT-4の間に位置する。GPT-3.5が2021年初頭に初めてリリースされたとき、前モデルのサイズ、パフォーマンス、適応性を大幅に改善した。
GPT-3.5 Turbo
OpenAIは、前身であるGPT-3.5を大幅に改良したGPT-3.5 Turboをリリースしました。2023年12月11日より、すべてのユーザーは自動的にこの改良版に移行します。主な強化点には、より大規模なデータ分析機能、デフォルトの16Kコンテキストウィンドウ、JSONモード、同時関数呼び出し、より優れた指示追跡機能などがあり、より強力で多用途になっています。
GPT-3.5 Turboはコスト効率に優れ、トークンコストが削減されているため、大量使用に最適です。また、特定の業界向けに微調整をサポートしており、企業は独自のニーズに合わせて応答をカスタマイズすることができます。
GPT-3.5 Turboファミリーには、対話(16K文脈)用の「gpt-3.5-turbo-1106」と、指示(4K文脈)用の「gpt-3.5-turbo-instruct」の2つのモデルがあります。最新のモデルであるGPT-3.5-Turbo-0125は、より高速で正確な応答を提供し、英語以外の機能呼び出しに関連するバグを修正しています。生成コストが50%削減され、出力コストも25%削減されているため、開発者にとって経済的な選択肢となっています。
また、OpenAIは旧モデルを「レガシー」と指定し、開発者は新しいエンドポイントに移行すべきであることを示しています。複雑なタスクにはGPT-4の方がより適していますが、GPT-3.5 Turboは現在、強化された機能を備えた強力で手頃な代替手段となっています。GPT-3.5 Turboは現在、ChatGPTインターフェースのGPT-4o miniを指していますが、開発者はAPIで利用できます。
DALL E
DALL Eは、テキスト記述から画像を生成するために、テキストと画像のペアのデータセットで学習されたGPT-3の120億パラメータバージョンである。DALL Eは、GPT-3と同様に変換言語モデルであり、アニメーションを作成したり、一見無関係に見える概念を信じられるように組み合わせたり、テキストを生成したり、既存のビジュアルを変更したりすることができる。最大1,280個のトークンを持つ単一のデータストリームとしてテキストと画像を受け取った後、各トークンを次々に生成するように最大尤度で学習される。
DALL Eをそのままアプリケーションに組み込んで、オリジナルのアートワークや写真を作成・修正する。DALL E 2はより手頃な価格で設計されており、DALL E 3は最も高品質なモデルである。DALL Eの価格を調べて選択する。
モデル | 品質 | 決議 | 価格 |
DALL E 3 | Standard | 1024×1024 | $0.040 / image |
Standard | 1024×1792,1792×1024 | $0.080 / image | |
DALL E 3 | HD | 1024×1024 | $0.080 / image |
HD | 1024×1792,1792×1024 | $0.120 / image | |
DALL E 2 | 1024×1024 | $0.020 / image | |
512×512 | $0.018 / image | ||
256×256 | $0.026 / image |
GPT-4
GPT-4は、スケールは異なるものの、同等のトランスフォーマーのアーキテクチャ・パラダイムに依存しているが、両者には多くの共通点がある。トランスフォーマーモデルが使用するエンコーダー・デコーダーアーキテクチャには、入力シーケンスのパターンを識別し、複雑な相関関係を捉える役割を担う自己注意モジュールが含まれている。シーケンスはエンコーダーによって処理され、トランスフォーマーの出力では、デコーダーがエンコーダーの出力を作成されたシーケンスに変換する。逆に、OpenAIはGPT-4のトレーニング方法について、技術的な詳細をすべて公開していた前身とは対照的に、最小限の詳細しか提供していない。スケーリングに関しては、GPT-4のアーキテクチャーは前任者よりも大きく改善されている。
OpenAIの内部的な事実性能ベンチマークによると、GPT-4はGPT-3.5よりも40%高いスコアを出しており、これはモデルが事実や推論の誤りをより少なくしていることを示している。さらに、「操縦性」、つまりユーザーの入力に応じて行動を修正する能力も強化されている。さらに強化された点は、モデルが境界を遵守することである。GPT-4の重要な改良点の一つは、テキストと画像の入力を受け付けることである。ユーザーは、テキストや画像をテキスト中に散りばめることで、任意の言語や視覚タスクを入力することができる。
GPT-4 価格
OpenAI APIではGPT-4にアクセスできる。GPT-4はコンテキスト長が8kと32kで価格が異なる。コンテキスト長8kのモデル(GPT-4とGPT-4-0314)のコストとトークン化は以下の通り:
- プロンプト用トークン: プロンプト用トークン:1,000トークンで0.03ドル
- トークンのサンプル:1,000トークンごとに0.06ドル
32kコンテキスト長モデル(GPT-4-32kおよびGPT-4-32k-0314)のコストは以下のとおりである:
- クイック・トークン:1,000トークンごとに0.06ドル
- トークン・サンプル:1,000トークンごとに$0.12
GPT-4へのアクセスは、APIに加えてGPT-4によるチャットボットChatGPTへの無制限アクセスを提供するサブスクリプションサービス、ChatGPT Plusを介して行われる。ChatGPT Plusは月額20ドルである。
GPT-4o
GPT-4oは、視覚、音声、テキスト処理における高度な機能を統合した、OpenAIの最新主力マルチモーダルモデルです。GPT-4 Turboなどの以前のモデルよりもはるかに高速かつ効率的に、より高速でインタラクティブな体験を提供します。特に、GPT-4oは128Kの文脈能力を提供し、2023年10月の知識カットオフで動作します。このモデルでは、ユーザーは画像、音声、文書など、多様なコンテンツをアップロードしてやりとりすることができ、幅広い現実世界の用途に適しています。
GPT-4oはテキスト、画像、音声を同時に処理し、真のマルチモーダルモデルとなっています。音声入力に対するリアルタイムの応答を最短320ミリ秒でサポートしており、ユーザーは視覚的なコンテンツをシームレスに翻訳し、議論することができます。このモデルの視覚処理能力の向上により、複雑な画像、チャート、さらには動画に対する理解と応答生成が可能になり、さまざまな状況での使用に最適です。さらに、GPT-4oは50以上の言語でやりとりでき、文脈、感情的なトーン、話し方に基づいて微妙なニュアンスを交えた応答を提供します。この汎用性により、多様な言語でのやりとりにも最適です。
リアルタイムアプリケーション用に設計されたGPT-4oは、対話型会話、音声翻訳、分析に優れています。これにより、多者間会話、音声ガイド付きアシスタンス、スマートなカスタマーサービスなど、現実世界の使用に非常に適しています。さらに、GPT-4oは、モデルトレーニングにユーザーデータを使用しないことで、プライバシーの強化を保証し、高いプライバシー基準を遵守しています。また、このモデルは多様なユーザーグループに対応するために段階的なアクセスを提供しており、個人または企業の要件に応じて柔軟性を提供します。
GPT-4oの価格体系は、具体的な用途とバージョンによって異なります。一般的な用途では、テキスト入力トークンは100万入力トークンあたり2.50ドル、キャッシュされたテキスト入力トークンは100万トークンあたり1.25ドルです。テキスト出力トークンは100万トークンあたり10.00ドルです。バッチAPIユーザーは、入力トークンが100万トークンあたり1.25ドル、出力トークンが100万トークンあたり5ドルと、割引価格を利用できます。GPT-4oの音声プレビューは、その特殊性により、音声入力トークンが100万トークンあたり100ドル、音声出力トークンが100万トークンあたり200ドルと、より高額な価格設定となっています。
GPT-4oは、2024-08-06や2024-11-20など、複数のバージョンで提供されており、それぞれ一貫した価格体系が維持されています。これにより、ユーザーはコストを予測しながら、さまざまなオプションを利用することができます。
GPT-4o Mini
GPT-4o miniは、パワフルさと手頃な価格の両方を実現するように設計された、OpenAIの最もコスト効率の高いモデルです。GPT-3.5 Turboの小型版でありながら高性能なこのモデルは、自然言語処理機能に加えて高度なビジョン機能も備えています。文脈ウィンドウが128K、2023年10月の知識カットオフというGPT-4o miniは、テキストとビジョンをベースとした多様なアプリケーションのニーズの両方を満たすことができます。
GPT-4o miniは、その手頃な価格だけでなく、その汎用性と強化されたパフォーマンスが際立っています。GPT-3.5 Turboよりも60%も低価格であるため、ChatGPTの無料、プラス、チームプランを使用している開発者にも利用しやすくなっています。このモデルは、入力トークン100万個あたり0.15ドル、出力トークン100万個あたり0.60ドルで、市場に出回っている他のモデルと比較すると、大幅に経済的です。キャッシュされた入力トークンは50%割引となり、100万トークンあたり0.075ドルとなります。さらに、バッチAPIオプションでは、リクエストがバッチで送信された場合、100万入力トークンあたり0.075ドル、100万出力トークンあたり0.30ドルといったより手頃な価格設定が提供され、開発者はコストをさらに最適化することができます。バッチ応答は24時間以内に返されるため、コスト効率の高い大規模処理を必要とする開発者にとって理想的な選択肢となります。
GPT-4oのミニモデルはテキストの枠を超え、高度なマルチモーダル推論が可能であり、テキストに加えて画像の処理と理解も可能です。幅広いAPI統合をサポートし、解像度に基づく視覚的入力処理のコストを概算できるビジョン価格計算機を提供しています。例えば、150ピクセル×150ピクセルの画像の処理コストは約0.001275ドルであり、開発者は使用量を簡単に把握し管理することができます。
GPT-4o miniは効率的なだけでなく、賢さも備えています。MMLUやMGSMなどの著名な学術ベンチマークで高いスコアを達成しており、数学、コーディング、マルチモーダル推論に関連するタスクに優れていることを示しています。このモデルは、1リクエストあたり最大16,000の出力トークンを生成することができ、より長いテキストの生成や複雑なコーディングアプリケーションにも十分対応できる能力を備えています。さらに、GPT-4o miniは幅広い多言語をサポートしており、国際化を必要とするアプリケーションに最適です。開発者は、その関数呼び出し機能を活用し、さまざまなワークフローへの統合を合理化し、汎用性を向上させることもできます。
GPT-4o miniの料金は、入力トークン100万個につき15セント、キャッシュされた入力トークン100万個につき7.5セント、出力トークン100万個につき60セントです。バッチAPIを利用する開発者にとっては、リクエストをバッチとして送信する場合、入力トークン100万個につき7.5セント、出力トークン100万個につき30セントと、さらに手頃な料金体系となります。さらに、モデルバージョンgpt-4o-mini-2024-07-18も同じ価格体系に従います。
バッチAPIの価格は、リクエストをバッチとして送信する必要があり、24時間以内に回答が返されると50%の割引が適用されます。キャッシュされたプロンプトも、キャッシュされていないプロンプトと比較して50%の割引価格で提供されます。
GPT-4o miniの可能性はそれだけにとどまりません。間もなくファインチューニング機能が展開され、開発者は特定のニーズに合わせてモデルをさらにカスタマイズできるようになるため、GPT-4o miniは、複数のドメインにわたるカスタマイズされたアプリケーションに理想的な選択肢となります。
GPT-4oとCanvas
2024年10月3日、OpenAIはGPT-4o with Canvasをローンチし、ChatGPT PlusとTeamユーザーに新たな機能を紹介しました。ベータ版の段階を経て、より広範な展開が期待されます。Canvasは共同執筆とコーディング用に設計されており、編集とバージョン管理の精度を高め、便利なショートカットコマンドを統合した専用ワークスペースを提供します。
Canvasは、インラインコードの提案、バグ検出、多言語コード翻訳(JavaScriptやPythonを含む)などの機能により、コーディングとコンテンツ作成の体験を向上させるように設計されています。GPT-4oの開発では、合成データ技術を活用し、モデルが自律的にCanvasを起動して編集を行う能力を向上させ、大幅なパフォーマンスの向上を実現しました。
これらの進歩により、インターフェースの起動精度は、文章作成では83%、コーディング作業では94%という素晴らしい結果となり、以前のバージョンよりも大幅に改善されました。この革新的なアプローチは、よりインタラクティブで効率的なユーザー体験を提供することを目的としており、文章作成とコーディングのプロセスをこれまでにないほど合理化します。
o1-previewとo1-mini
2024年9月12日、OpenAIはo1シリーズを発表し、o1-previewとo1-miniという2つの新しいモデルを導入しました。これらのモデルは、強化学習を活用して複雑な推論タスクに高い精度で取り組むことで、人工知能の飛躍的な進歩を象徴するものです。両モデルとも、128Kという余裕のある文脈ウィンドウを備えており、これにより、長時間の会話における一貫性の維持や、長時間の問題の解決能力が大幅に向上します。o1-previewモデルは、より深い理解を必要とする難問の解決など、複雑な推論の課題に特化して調整されており、o1-miniは、コーディング、数学、科学のタスクに優れ、より高速で低価格なオプションです。
医療研究者、物理学者、開発者らはすでにこれらのモデルの価値を見出し、それぞれの分野に最適なモデルを使用しています。o1-previewモデルは最大32,768の出力トークンを処理でき、o1-miniモデルは最大65,536のトークンを処理できます。両モデルとも、2023年10月までの知識がカットオフされているため、それまでの最新情報が十分に装備されていることになります。ただし、o1モデルでは、ウェブブラウジング、ファイルアップロード、画像処理などの機能はまだサポートされていませんのでご注意ください。
2つのモデルの主な違いは、価格と使用例の焦点にあります。o1-miniモデルはo1-previewよりも約80%も安価であり、多くのユーザーにとって費用対効果の高い選択肢となります。o1-miniの価格は入力トークン100万個あたり3ドルですが、o1-previewは入力トークン100万個あたり15ドルと、はるかに高額です。出力トークンの料金は、o1-miniが100万トークンあたり12ドル、o1-previewが100万トークンあたり60ドルです。キャッシュされた入力トークンには追加割引が適用されます。この価格差により、o1-miniは、特に頻繁なコーディングや科学的なクエリなど、多額の費用をかけずに強力なAI機能が必要なユーザーにとって特に魅力的なものとなっています。
o1シリーズの能力は目覚ましく、物理、生物学、化学(CPQA)に関するベンチマークでは、人間の博士レベルの正確性を上回るスコアを達成しています。機械学習のベンチマークでは、o1モデルはMMMU(Val)で78.1%、化学で64.7%、物理学で92.8%、AP英語試験で58%という顕著なパフォーマンスを示しました。これらの指標は、o1-previewが複雑かつ多様なタスクを効果的に処理できる可能性を示しています。一方、o1-miniは効率性を重視して最適化されており、コーディングや科学の実用的な応用において、スピード、正確性、費用対効果のバランスを提供します。
これらのモデルへのアクセスは、当初はChatGPT PlusとTeamユーザーに提供され、o1-previewでは週あたり30メッセージ、o1-miniでは週あたり50メッセージの制限付きで利用できます。API利用Tier 5の資格を満たす開発者も、これらのモデルでプロトタイプを作成する機会が与えられ、1分あたり20リクエストの制限付きで利用できます。これらのモデルは間もなく ChatGPT Enterprise および Edu のユーザーに展開される予定であり、OpenAI は近い将来、o1-mini モデルへのアクセスをフリーティアのユーザーにも提供する計画です。
o1 シリーズは、AI 開発における有望な前進を象徴しています。OpenAI は番号付けをリセットし、AI 業界における新たな時代の到来を示唆しています。これは、GPT-4 などの先行モデルから技術がどれほど進歩したかを象徴しています。新しい連鎖思考の推論機能と認識・修正メカニズムにより、これらのモデルはプロセス中のエラーに対処できるようになり、より強固な結果につながります。ウェブブラウジングやファイルアップロードなどの機能は備えていませんが、o1シリーズは、高度な推論と専門分野の知識を備えたモデルの作成にOpenAIが取り組んでいることを示しており、さまざまな業界のニーズの高まりに応えるものです。
結論
GPT-1とGPT-2は、最初に直接費用なしで研究利用できるようにされ、研究コミュニティは広く実験と探求を奨励された。GPT-3からGPT- DALL-Eは、利用がティアベースの価格設定の対象となるビジネスモデルを発表し、アクセスはOpenAI APIを介して有効化され、進歩はGPT-4に直面して限界に挑戦している。GPT-4は、その広範な一般知識とドメイン経験のおかげで、困難な問題を正確に処理し、自然言語で複雑な指示に従うことができる。
よくある質問 (FAQs)
GPTモデルは無料で使えるのか?
OpenAIはChatGPTモデルを無料と有料の両方で提供している。詳しい価格については、OpenAIの公式ドキュメントを参照してほしい。利用レベルによって価格設定が異なる。
ChatGPTの最新バージョンは?
最新のGPTモデルはGPT-4だ。GPT-3.5を強化したモデルで、通常の言語やタラを理解し、作成することができる。
GPT-3.5とGPT-4の大きな違いは?
主な違いは、GPT-4は入力サイズが大きくなり、マルチモーダル入力(テキストとグラフィック)を扱うことができる。長い文書や、テキストと画像を組み合わせたデータを理解するタスクにおいて、より良い結果をもたらす。
GPT-4は常にGPT-3.5より優れているのか?
常にそうとは限らない。GPT-4の能力は高いが、タスクの要件、利用可能なコンピューティング能力、予算によって、どのオプションが最適かが決まる。GPT-3.5は、より少ないコンピューティングパワーを必要とするため、状況によってはより実用的であり、依然として多くのアプリケーションで良好な性能を発揮する。