OpenAI uvádí na trh nový model GPT-4o pro realizaci osobního hlasového interaktivního asistenta s extrémně nízkou latencí

Podle Odaily Planet Daily vydala OpenAI svůj nejnovější vlajkový model GPT-4o, který dokáže uvažovat o zvuku, vizi a textu v reálném čase. Hlavním konceptem je antropomorfní, nadpřirozený, osobní hlasový interaktivní asistent s ultra nízkou latencí. Písmeno 'o' v GPT-4o znamená Omni, což je krok k přirozenější interakci mezi člověkem a počítačem. Jako vstup přijímá jakoukoli kombinaci textu, zvuku a obrázků a podporuje generování jakékoli kombinace výstupu textu, zvuku a obrazu.
Dokáže reagovat na zvukový vstup za 232 milisekund, v průměru 320 milisekund, což je podobné době reakce člověka při konverzaci. V angličtině a kódu má srovnatelný výkon s GPT-4 Turbo, s výraznými vylepšeními u textu v neanglickém jazyce, zatímco API je rychlejší a o 50 % levnější. GPT-4o si ve srovnání se stávajícími modely vede obzvláště dobře ve vizuálním a zvukovém porozumění. Textový a obrazový vstup bude k dispozici v API a ChatGPT již dnes, hlasový a obrazový vstup bude následovat v nadcházejících týdnech.

Vyloučení odpovědnosti: Obsahuje názory třetích stran. Nejedná se o finanční poradenství. Může obsahovat sponzorovaný obsah. Viz obchodní podmínky.

OpenAI uvádí na trh nový model GPT-4o pro realizaci osobního hlasového interaktivního asistenta s extrémně nízkou latencí

Nejnovější zprávy