Generative Pre-Trained Transformer(GPT)モデルは、近年の言語モデルファミリーの中で最もよく知られたメンバーである。これらのモデルは自然言語処理(NLP)を大きく発展させ、機械が様々な場面で人間と同様のテキストを理解し、生成し、扱うことを可能にした。GPT-1から始まり、DALL-E、GPT3.5、GPT3.5 Turbo、GPT-4といった最新バージョンに至るこれらのモデルは、その巨大なサイズ、幅広いアーキテクチャ、まとまりがあり文脈に適したテキストを生成する能力によって区別される。GPTモデルは、多数のパラメータと大規模データセットでの事前学習レジメンを含み、質問応答、創作文、言語翻訳と要約を含む様々なNLPタスクに革命をもたらした。
ChatGPTの上級GPTモデル
ここでは、進化、価格、性能に焦点を当てながら、高度なGPTバージョンを簡単に紹介する。
GPT-3
GPTモデルシリーズの第3バージョンはGPT-3と呼ばれている。このソフトウェアは、まるで人間が書いたかのように思えるほど独創的な段落を作成することができる。GPT-3モデルは、アクセス制限付きのクラウドベースのAPIからもアクセスできる。ユーティリティを使用するにはアクセスが必要だ。リリース以来、いくつかの魅力的なアプリケーションが生み出されている。GPT-2よりも100倍大きく、1750億以上のパラメーターを持っている。5,000億語のデータセットを使って訓練されている。
GPT-2は5,000億語のデータセット(Common Crawlとしても知られる)を使って学習される。このデータセットは、広範なインターネットとコンテンツ・リポジトリから収集される。その他、コード・スニペットの記述、迅速なアクティビティ、基本的な演算問題の解決など、予想外の能力も備えている。
GPT-3には、Ada、Babbage、Curie、Davinciの4つの言語モデルがある。最も強力なのはChatGPTで利用されているDavinciだが、他の3つも感情分析や要約オーサリングのような簡単な仕事にはまだ使える。コストは1,000トークンごとに決定される。50Kトークンを使うごとに、Davinciモデルに従って1ドルを支払うことになる。
GPT-3の4つのモデルは異なる価格帯を含んでいる。GPT-3のコストは、基本モデルのAdaの場合、1000トークンあたり0.0004ドルから始まる。同様に、Davinciモデルには1Kトークンあたり0.0300ドルでアクセスできる。
GPT-3.5
GPT-3.5シリーズは、GPT-3と同様にGPT-3から派生したモデルである。 GPT-3.5の特徴は、人間の価値観に基づいた一定のルールに従っていることで、強化学習と人間のフィードバック(RLHF)というプロセスによって統合されている。主な目標は、毒性を減らし、生成される出力の真実性を優先し、モデルをユーザーの意図により近づけることである。この進化は、言語モデルのモラルと責任ある適用を改善し、より信頼できる安全なユーザー体験を提供するための意図的な試みである。GPT-3.5は、GPTシリーズのGPT-3とGPT-4の間に位置する。GPT-3.5が2021年初頭に初めてリリースされたとき、前モデルのサイズ、パフォーマンス、適応性を大幅に改善した。
GPT-3.5 Turbo
OpenAIはGPT-3の成功を受けてGPT-3.5 Turboを導入した。GPT-3はすでにゲームチェンジャーであったが、その後継はAI言語モデルを全く新しいレベルに引き上げることを確実にした。GPT-3.5ターボは、より速く、より効率的に、さらに高性能になるよう特別に設計されている。GPT-3.5ターボは60億ものパラメーターを備えており、様々なアプリケーションに対応する汎用性の高いツールとなっている。GPT-3.5ターボの文脈では、”カスタムチューニング “とは、特定のデータセットやアプリケーション向けにAIモデルを調整するプロセスを指す。これは、プログラマーがこのすでに強力なAIをさらに特化させる能力を持っていることを意味する。ChatGPTの価格設定基準によると、gpt-3.5-turbo-1106の入力コストは$0.0010 / 1Kトークンであるのに対し、出力コスト は$0.0020 / 1Kトークンになる。gpt-3.5-turbo-instructについては、入力コストは$0.0015 / 1Kトークンであり、出力は$0.0020 / 1Kトークンである。
DALL E
DALL Eは、テキスト記述から画像を生成するために、テキストと画像のペアのデータセットで学習されたGPT-3の120億パラメータバージョンである。DALL Eは、GPT-3と同様に変換言語モデルであり、アニメーションを作成したり、一見無関係に見える概念を信じられるように組み合わせたり、テキストを生成したり、既存のビジュアルを変更したりすることができる。最大1,280個のトークンを持つ単一のデータストリームとしてテキストと画像を受け取った後、各トークンを次々に生成するように最大尤度で学習される。
DALL Eをそのままアプリケーションに組み込んで、オリジナルのアートワークや写真を作成・修正する。DALL E 2はより手頃な価格で設計されており、DALL E 3は最も高品質なモデルである。DALL Eの価格を調べて選択する。
モデル | 品質 | 決議 | 価格 |
DALL E 3 | Standard | 1024×1024 | $0.040 / image |
Standard | 1024×1792,1792×1024 | $0.080 / image | |
DALL E 3 | HD | 1024×1024 | $0.080 / image |
HD | 1024×1792,1792×1024 | $0.120 / image | |
DALL E 2 | 1024×1024 | $0.020 / image | |
512×512 | $0.018 / image | ||
256×256 | $0.026 / image |
GPT-4
GPT-4は、スケールは異なるものの、同等のトランスフォーマーのアーキテクチャ・パラダイムに依存しているが、両者には多くの共通点がある。トランスフォーマーモデルが使用するエンコーダー・デコーダーアーキテクチャには、入力シーケンスのパターンを識別し、複雑な相関関係を捉える役割を担う自己注意モジュールが含まれている。シーケンスはエンコーダーによって処理され、トランスフォーマーの出力では、デコーダーがエンコーダーの出力を作成されたシーケンスに変換する。逆に、OpenAIはGPT-4のトレーニング方法について、技術的な詳細をすべて公開していた前身とは対照的に、最小限の詳細しか提供していない。スケーリングに関しては、GPT-4のアーキテクチャーは前任者よりも大きく改善されている。
OpenAIの内部的な事実性能ベンチマークによると、GPT-4はGPT-3.5よりも40%高いスコアを出しており、これはモデルが事実や推論の誤りをより少なくしていることを示している。さらに、「操縦性」、つまりユーザーの入力に応じて行動を修正する能力も強化されている。さらに強化された点は、モデルが境界を遵守することである。GPT-4の重要な改良点の一つは、テキストと画像の入力を受け付けることである。ユーザーは、テキストや画像をテキスト中に散りばめることで、任意の言語や視覚タスクを入力することができる。
GPT-4 価格
OpenAI APIではGPT-4にアクセスできる。GPT-4はコンテキスト長が8kと32kで価格が異なる。コンテキスト長8kのモデル(GPT-4とGPT-4-0314)のコストとトークン化は以下の通り:
- プロンプト用トークン: プロンプト用トークン:1,000トークンで0.03ドル
- トークンのサンプル:1,000トークンごとに0.06ドル
32kコンテキスト長モデル(GPT-4-32kおよびGPT-4-32k-0314)のコストは以下のとおりである:
- クイック・トークン:1,000トークンごとに0.06ドル
- トークン・サンプル:1,000トークンごとに$0.12
GPT-4へのアクセスは、APIに加えてGPT-4によるチャットボットChatGPTへの無制限アクセスを提供するサブスクリプションサービス、ChatGPT Plusを介して行われる。ChatGPT Plusは月額20ドルである。
結論
GPT-1とGPT-2は、最初に直接費用なしで研究利用できるようにされ、研究コミュニティは広く実験と探求を奨励された。GPT-3からGPT- DALL-Eは、利用がティアベースの価格設定の対象となるビジネスモデルを発表し、アクセスはOpenAI APIを介して有効化され、進歩はGPT-4に直面して限界に挑戦している。GPT-4は、その広範な一般知識とドメイン経験のおかげで、困難な問題を正確に処理し、自然言語で複雑な指示に従うことができる。
よくある質問 (FAQs)
GPTモデルは無料で使えるのか?
OpenAIはChatGPTモデルを無料と有料の両方で提供している。詳しい価格については、OpenAIの公式ドキュメントを参照してほしい。利用レベルによって価格設定が異なる。
ChatGPTの最新バージョンは?
最新のGPTモデルはGPT-4だ。GPT-3.5を強化したモデルで、通常の言語やタラを理解し、作成することができる。
GPT-3.5とGPT-4の大きな違いは?
主な違いは、GPT-4は入力サイズが大きくなり、マルチモーダル入力(テキストとグラフィック)を扱うことができる。長い文書や、テキストと画像を組み合わせたデータを理解するタスクにおいて、より良い結果をもたらす。
GPT-4は常にGPT-3.5より優れているのか?
常にそうとは限らない。GPT-4の能力は高いが、タスクの要件、利用可能なコンピューティング能力、予算によって、どのオプションが最適かが決まる。GPT-3.5は、より少ないコンピューティングパワーを必要とするため、状況によってはより実用的であり、依然として多くのアプリケーションで良好な性能を発揮する。