OpenAI lanza el nuevo modelo GPT-4o para crear un asistente interactivo de voz personal de latencia ultrabaja

Según Odaily Planet Daily, OpenAI ha lanzado su último modelo insignia, GPT-4o, que puede razonar sobre audio, visión y texto en tiempo real. El concepto principal es un asistente interactivo de voz personal antropomórfico, sobrenatural y de latencia ultrabaja. La 'o' en GPT-4o significa Omni, un paso hacia una interacción más natural entre humanos y computadoras. Acepta cualquier combinación de texto, audio e imágenes como entrada y admite la generación de cualquier combinación de salida de texto, audio e imágenes.
Puede responder a una entrada de audio en 232 milisegundos, con un promedio de 320 milisegundos, similar a los tiempos de reacción humana en una conversación. En inglés y código, tiene un rendimiento comparable al GPT-4 Turbo, con mejoras significativas en texto en idiomas distintos del inglés, mientras que la API es más rápida y un 50% más barata. GPT-4o funciona particularmente bien en comprensión visual y auditiva en comparación con los modelos existentes. La entrada de texto e imágenes estará disponible en la API y ChatGPT hoy, y la entrada de voz y video estará disponible en las próximas semanas.

Aviso legal: Contiene opiniones de terceros. Esto no constituye asesoramiento financiero. Es posible que contenga contenido patrocinado. Consultar Términos y condiciones.

OpenAI lanza el nuevo modelo GPT-4o para crear un asistente interactivo de voz personal de latencia ultrabaja

Últimas noticias

Artículos en tendencia