Odaily Planet Daily によると、OpenAI は、音声、視覚、テキストをリアルタイムで推論できる最新のフラッグシップ モデル GPT-4o をリリースしました。その主なコンセプトは、擬人化された、超自然的な、超低遅延のパーソナル音声インタラクティブ アシスタントです。 GPT-4o の「o」は、より自然な人間とコンピューターの対話への一歩であるオムニを表します。テキスト、オーディオ、および画像の任意の組み合わせを入力として受け入れ、テキスト、オーディオ、および画像の任意の組み合わせの出力の生成をサポートします。

音声入力には 232 ミリ秒 (平均 320 ミリ秒) で応答できます。これは人間の会話時の反応時間と同様です。英語とコードでは GPT-4 Turbo と同等のパフォーマンスを備え、英語以外の言語テキストが大幅に改善されています。また、API はより高速で 50% 安価です。 GPT-4o は、既存のモデルと比較して、視覚と音声の理解において特に優れたパフォーマンスを発揮します。テキストと画像の入力は今日 API と ChatGPT で利用可能になり、音声とビデオの入力は今後数週間以内に利用できるようになります。