Secondo Odaily Planet Daily, OpenAI ha rilasciato il suo ultimo modello di punta GPT-4o, in grado di ragionare su audio, visione e testo in tempo reale. Il concetto principale è un assistente interattivo vocale personale antropomorfo, soprannaturale e a bassissima latenza. La "o" in GPT-4o sta per Omni, un passo verso un'interazione uomo-computer più naturale. Accetta qualsiasi combinazione di testo, audio e immagini come input e supporta la generazione di qualsiasi combinazione di testo, audio e output di immagini.

Può rispondere all'input audio in 232 millisecondi, con una media di 320 millisecondi, simile ai tempi di reazione umani durante una conversazione. In inglese e nel codice, ha prestazioni paragonabili a GPT-4 Turbo, con miglioramenti significativi sul testo in lingua diversa dall'inglese, mentre l'API è più veloce e più economica del 50%. GPT-4o offre prestazioni particolarmente buone nella comprensione visiva e audio rispetto ai modelli esistenti. L'input di testo e immagini sarà disponibile oggi nell'API e in ChatGPT, mentre l'input vocale e video seguirà nelle prossime settimane.