Potrivit Odaily Planet Daily, OpenAI a lansat cel mai recent model GPT-4o, care poate raționa în timp real despre sunet, viziune și text. Conceptul principal este un asistent vocal interactiv antropomorf, supranatural, cu latență ultra scăzută. „O” din GPT-4o înseamnă Omni, un pas către o interacțiune mai naturală om-calculator. Acceptă orice combinație de text, audio și imagini ca intrare și acceptă generarea oricărei combinații de text, audio și imagine.

Poate răspunde la intrarea audio în 232 de milisecunde, cu o medie de 320 de milisecunde, similar timpilor de reacție uman în conversație. În engleză și cod, are performanțe comparabile cu GPT-4 Turbo, cu îmbunătățiri semnificative asupra textului în limba non-engleză, în timp ce API-ul este mai rapid și cu 50% mai ieftin. GPT-4o are rezultate deosebit de bune în înțelegerea vizuală și audio în comparație cu modelele existente. Introducerea textului și a imaginilor vor fi disponibile astăzi în API și ChatGPT, urmând introducerea vocală și video în săptămânile următoare.