Según Odaily Planet Daily, OpenAI ha lanzado su último modelo insignia, GPT-4o, que puede razonar sobre audio, visión y texto en tiempo real. El concepto principal es un asistente interactivo de voz personal antropomórfico, sobrenatural y de latencia ultrabaja. La 'o' en GPT-4o significa Omni, un paso hacia una interacción más natural entre humanos y computadoras. Acepta cualquier combinación de texto, audio e imágenes como entrada y admite la generación de cualquier combinación de salida de texto, audio e imágenes.

Puede responder a una entrada de audio en 232 milisegundos, con un promedio de 320 milisegundos, similar a los tiempos de reacción humana en una conversación. En inglés y código, tiene un rendimiento comparable al GPT-4 Turbo, con mejoras significativas en texto en idiomas distintos del inglés, mientras que la API es más rápida y un 50% más barata. GPT-4o funciona particularmente bien en comprensión visual y auditiva en comparación con los modelos existentes. La entrada de texto e imágenes estará disponible en la API y ChatGPT hoy, y la entrada de voz y video estará disponible en las próximas semanas.