OpenAI veröffentlicht das neue Modell GPT-4o, um einen persönlichen interaktiven Sprachassistenten mit extrem geringer Latenz zu realisieren

Laut Odaily Planet Daily hat OpenAI sein neuestes Flaggschiffmodell GPT-4o veröffentlicht, das in Echtzeit über Audio, Bild und Text nachdenken kann. Das Hauptkonzept ist ein anthropomorpher, übernatürlicher, persönlicher interaktiver Sprachassistent mit extrem geringer Latenz. Das „o“ in GPT-4o steht für Omni, einen Schritt hin zu einer natürlicheren Mensch-Computer-Interaktion. Es akzeptiert jede beliebige Kombination aus Text, Audio und Bildern als Eingabe und unterstützt die Generierung beliebiger Kombinationen aus Text, Audio und Bildausgabe.
Es kann in 232 Millisekunden auf Audioeingaben reagieren, mit einem Durchschnitt von 320 Millisekunden, ähnlich den menschlichen Reaktionszeiten bei Gesprächen. In Englisch und Code ist die Leistung mit GPT-4 Turbo vergleichbar, mit erheblichen Verbesserungen bei nicht englischsprachigen Texten, während die API schneller und 50 % günstiger ist. GPT-4o schneidet im Vergleich zu bestehenden Modellen besonders gut beim visuellen und akustischen Verständnis ab. Text- und Bildeingaben werden heute in der API und ChatGPT verfügbar sein, Sprach- und Videoeingaben folgen in den kommenden Wochen.

Haftungsausschluss: Enthält Meinungen Dritter. Die hier bereitgestellten Informationen stellen keine Finanzberatung dar. Kann gesponserte Inhalte enthalten. Siehe AGB.

Aktuelle Nachrichten