GPT-4 について知っておくべき重要なこと

長い待ち時間を経て、OpenAI (https://openai.com/) はついに新しい GPT-4 モデルをリリースしました。これは、人気のある ChatGPT システムの背後にあるコア構造と GPT-3.5 API のメジャー アップデートです。新しい GPT-4 リリースでは多くのことが行われています。 
OpenAI によって提供された初期の例、API ドキュメント、およびコード サンプルに基づいて、プロジェクトについて知っておくべき重要な事項を次に示します。  
プロジェクトはマルチモーダルです。それはどういう意味ですか？  
GPT-4 のリリース前は、プロジェクトが ChatGPT のようなテキストのみのモデルのままになるのか、それともマルチモーダルになるのかについて多くの憶測がありました。  マルチモーダル モデルは、出力と入力の両方で、テキストから画像、最終的にはビデオに至るまで、幅広いメディア タイプを処理できます。  
現在、GPT-4 は入力イメージと出力イメージの両方をサポートしています。当初、この機能は、OpenAI テスト画像処理を支援している 1 社のサードパーティ企業のみが利用できます。  システムが高速化するにつれて、より多くのユーザーが入力として画像を利用できるようになります。  
しかし、OpenAI には、これがどのように機能するかを示す例がいくつかあります。一例としては、卵と小麦粉の写真と料理関連のクエリが含まれます。 GPT-4では写真の材料で作れるレシピをおすすめします。  このモデルを使用して、画像キャプションを作成したり、Web サイト上の画像に素晴らしい代替テキストを書き込んだりすることもできます。ビデオはまだ公開されていませんが、GPT-4 はマルチモーダルであるため、おそらく公開されるでしょう。  
OpenAI は、ほぼ即座に新しいモデルへの API アクセスを提供します。多くの企業はすでに OpenAI の既存の API と統合しているため、GPT-4 への移行は簡単です。デフォルトでは、GPT-4 は 8,000 トークンを処理できます。これはテキストの約 50 ページに相当します。 
より多くのデータを処理すると、システムはより多くの命令を処理し、より長い記事を書くことができ、場合によっては非常に長い文書や長編文学作品を書くことさえ可能になります。  ニューラル ネットワークの進化は文字通り飛躍的に進んでおり、近い将来、更新が繰り返されることになるでしょう。