OpenAI、超低遅延パーソナル音声対話型アシスタントを実現する新モデル GPT-4o をリリース

Binance News · 2024-05-13T18:24:06.000Z

Odaily Planet Daily によると、OpenAI は、音声、視覚、テキストをリアルタイムで推論できる最新のフラッグシップモデル GPT-4o をリリースしました。その主なコンセプトは、擬人化された、超自然的な、超低遅延のパーソナル音声インタラクティブアシスタントです。 GPT-4o の「o」は、より自然な人間とコンピューターの対話への一歩であるオムニを表します。テキスト、オーディオ、および画像の任意の組み合わせを入力として受け入れ、テキスト、オーディオ、および画像の任意の組み合わせの出力の生成をサポートします。音声入力には 232 ミリ秒 (平均 320 ミリ秒) で応答できます。これは人間の会話時の反応時間と同様です。英語とコードでは GPT-4 Turbo と同等のパフォーマンスを備え、英語以外の言語テキストが大幅に改善されています。また、API はより高速で 50% 安価です。 GPT-4o は、既存のモデルと比較して、視覚と音声の理解において特に優れたパフォーマンスを発揮します。テキストと画像の入力は今日 API と ChatGPT で利用可能になり、音声とビデオの入力は今後数週間以内に利用できるようになります。

OpenAI lance le nouveau modèle GPT-4o pour réaliser un assistant vocal interactif personnel à très faible latence

Selon Odaily Planet Daily, OpenAI a publié son dernier modèle phare, le GPT-4o, qui peut raisonner sur l'audio, la vision et le texte en temps réel. Le concept principal est un assistant vocal interactif anthropomorphique, surnaturel et à très faible latence. Le « o » dans GPT-4o signifie Omni, une étape vers une interaction homme-machine plus naturelle. Il accepte n'importe quelle combinaison de texte, d'audio et d'images en entrée et prend en charge la génération de n'importe quelle combinaison de sortie de texte, d'audio et d'image.
Il peut répondre à une entrée audio en 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire aux temps de réaction humains dans une conversation. En anglais et en code, il offre des performances comparables à GPT-4 Turbo, avec des améliorations significatives sur les textes en langue autre que l'anglais, tandis que l'API est plus rapide et 50 % moins chère. GPT-4o fonctionne particulièrement bien en compréhension visuelle et audio par rapport aux modèles existants. La saisie de texte et d'images sera disponible dans l'API et ChatGPT aujourd'hui, et la saisie vocale et vidéo suivra dans les semaines à venir.

Avertissement : comprend des opinions de tiers. Il ne s’agit pas d’un conseil financier. Peut inclure du contenu sponsorisé. Consultez les CG.

OpenAI lance le nouveau modèle GPT-4o pour réaliser un assistant vocal interactif personnel à très faible latence

Dernières actualités