Selon Odaily Planet Daily, OpenAI a publié son dernier modèle phare, le GPT-4o, qui peut raisonner sur l'audio, la vision et le texte en temps réel. Le concept principal est un assistant vocal interactif anthropomorphique, surnaturel et à très faible latence. Le « o » dans GPT-4o signifie Omni, une étape vers une interaction homme-machine plus naturelle. Il accepte n'importe quelle combinaison de texte, d'audio et d'images en entrée et prend en charge la génération de n'importe quelle combinaison de sortie de texte, d'audio et d'image.

Il peut répondre à une entrée audio en 232 millisecondes, avec une moyenne de 320 millisecondes, ce qui est similaire aux temps de réaction humains dans une conversation. En anglais et en code, il offre des performances comparables à GPT-4 Turbo, avec des améliorations significatives sur les textes en langue autre que l'anglais, tandis que l'API est plus rapide et 50 % moins chère. GPT-4o fonctionne particulièrement bien en compréhension visuelle et audio par rapport aux modèles existants. La saisie de texte et d'images sera disponible dans l'API et ChatGPT aujourd'hui, et la saisie vocale et vidéo suivra dans les semaines à venir.