Według Odaily Planet Daily OpenAI wypuściło swój najnowszy flagowy model GPT-4o, który potrafi analizować dźwięk, obraz i tekst w czasie rzeczywistym. Główną koncepcją jest antropomorficzny, nadprzyrodzony osobisty interaktywny asystent głosowy o bardzo niskim opóźnieniu. Litera „o” w GPT-4o oznacza Omni, krok w kierunku bardziej naturalnej interakcji człowiek-komputer. Akceptuje dowolną kombinację tekstu, dźwięku i obrazów jako dane wejściowe i obsługuje generowanie dowolnej kombinacji tekstu, dźwięku i obrazu.

Może reagować na sygnał audio w ciągu 232 milisekund, średnio 320 milisekund, czyli podobnie jak czas reakcji człowieka podczas rozmowy. W języku angielskim i kodzie ma porównywalną wydajność do GPT-4 Turbo, ze znacznymi ulepszeniami w przypadku tekstu w języku innym niż angielski, podczas gdy interfejs API jest szybszy i 50% tańszy. GPT-4o szczególnie dobrze radzi sobie z rozumieniem obrazu i dźwięku w porównaniu z istniejącymi modelami. Wprowadzanie tekstu i obrazu zostanie już dziś wprowadzone do API i ChatGPT, a wprowadzanie głosu i wideo pojawi się w nadchodzących tygodniach.