Laut Odaily Planet Daily hat OpenAI sein neuestes Flaggschiffmodell GPT-4o veröffentlicht, das in Echtzeit über Audio, Bild und Text nachdenken kann. Das Hauptkonzept ist ein anthropomorpher, übernatürlicher, persönlicher interaktiver Sprachassistent mit extrem geringer Latenz. Das „o“ in GPT-4o steht für Omni, einen Schritt hin zu einer natürlicheren Mensch-Computer-Interaktion. Es akzeptiert jede beliebige Kombination aus Text, Audio und Bildern als Eingabe und unterstützt die Generierung beliebiger Kombinationen aus Text, Audio und Bildausgabe.

Es kann in 232 Millisekunden auf Audioeingaben reagieren, mit einem Durchschnitt von 320 Millisekunden, ähnlich den menschlichen Reaktionszeiten bei Gesprächen. In Englisch und Code ist die Leistung mit GPT-4 Turbo vergleichbar, mit erheblichen Verbesserungen bei nicht englischsprachigen Texten, während die API schneller und 50 % günstiger ist. GPT-4o schneidet im Vergleich zu bestehenden Modellen besonders gut beim visuellen und akustischen Verständnis ab. Text- und Bildeingaben werden heute in der API und ChatGPT verfügbar sein, Sprach- und Videoeingaben folgen in den kommenden Wochen.