Saskaņā ar Odaily Planet Daily, OpenAI ir izlaidusi savu jaunāko vadošo modeli GPT-4o, kas var reāllaikā spriest par audio, vīziju un tekstu. Galvenā koncepcija ir antropomorfs, pārdabisks, īpaši zema latentuma personīgais balss interaktīvais palīgs. “O” GPT-4o nozīmē Omni — solis ceļā uz dabiskāku cilvēka un datora mijiedarbību. Tā pieņem jebkuru teksta, audio un attēlu kombināciju kā ievadi un atbalsta jebkuras teksta, audio un attēla izvades kombinācijas ģenerēšanu.

Tas var reaģēt uz audio ievadi 232 milisekundēs, vidēji ar 320 milisekundēm, līdzīgi kā cilvēka reakcijas laiks sarunā. Angļu valodā un kodā tam ir salīdzināma veiktspēja ar GPT-4 Turbo, ar ievērojamiem uzlabojumiem tekstā, kas nav angļu valodā, savukārt API ir ātrāka un par 50% lētāka. Salīdzinot ar esošajiem modeļiem, GPT-4o īpaši labi darbojas vizuālajā un audio izpratnē. Teksta un attēlu ievade API un ChatGPT būs pieejama jau šodien, savukārt balss un video ievade būs pieejama tuvāko nedēļu laikā.