Podle Odaily Planet Daily vydala OpenAI svůj nejnovější vlajkový model GPT-4o, který dokáže uvažovat o zvuku, vizi a textu v reálném čase. Hlavním konceptem je antropomorfní, nadpřirozený, osobní hlasový interaktivní asistent s ultra nízkou latencí. Písmeno 'o' v GPT-4o znamená Omni, což je krok k přirozenější interakci mezi člověkem a počítačem. Jako vstup přijímá jakoukoli kombinaci textu, zvuku a obrázků a podporuje generování jakékoli kombinace výstupu textu, zvuku a obrazu.

Dokáže reagovat na zvukový vstup za 232 milisekund, v průměru 320 milisekund, což je podobné době reakce člověka při konverzaci. V angličtině a kódu má srovnatelný výkon s GPT-4 Turbo, s výraznými vylepšeními u textu v neanglickém jazyce, zatímco API je rychlejší a o 50 % levnější. GPT-4o si ve srovnání se stávajícími modely vede obzvláště dobře ve vizuálním a zvukovém porozumění. Textový a obrazový vstup bude k dispozici v API a ChatGPT již dnes, hlasový a obrazový vstup bude následovat v nadcházejících týdnech.