De acordo com o Odaily Planet Daily, a OpenAI lançou seu mais recente modelo carro-chefe GPT-4o, que pode raciocinar sobre áudio, visão e texto em tempo real. O conceito principal é um assistente interativo de voz pessoal antropomórfico, sobrenatural e de latência ultrabaixa. O 'o' em GPT-4o significa Omni, um passo em direção a uma interação humano-computador mais natural. Ele aceita qualquer combinação de texto, áudio e imagens como entrada e suporta a geração de qualquer combinação de saída de texto, áudio e imagem.

Ele pode responder à entrada de áudio em 232 milissegundos, com uma média de 320 milissegundos, semelhante ao tempo de reação humana durante uma conversa. Em inglês e código, possui desempenho comparável ao GPT-4 Turbo, com melhorias significativas em textos em idiomas diferentes do inglês, enquanto a API é mais rápida e 50% mais barata. O GPT-4o tem um desempenho particularmente bom na compreensão visual e sonora em comparação com os modelos existentes. A entrada de texto e imagem estará disponível na API e no ChatGPT hoje, com entrada de voz e vídeo nas próximas semanas.