Menurut Odaily Planet Daily, OpenAI telah merilis model andalan terbarunya GPT-4o, yang dapat menjelaskan audio, penglihatan, dan teks secara real-time. Konsep utamanya adalah asisten interaktif suara pribadi yang antropomorfik, supernatural, dan berlatensi sangat rendah. Huruf 'o' di GPT-4o adalah singkatan dari Omni, sebuah langkah menuju interaksi manusia-komputer yang lebih alami. Ia menerima kombinasi teks, audio, dan gambar apa pun sebagai masukan dan mendukung pembuatan kombinasi teks, audio, dan keluaran gambar apa pun.

Ia dapat merespons input audio dalam 232 milidetik, dengan rata-rata 320 milidetik, serupa dengan waktu reaksi manusia dalam percakapan. Dalam bahasa Inggris dan kode, kinerjanya sebanding dengan GPT-4 Turbo, dengan peningkatan signifikan pada teks berbahasa non-Inggris, sedangkan API lebih cepat dan 50% lebih murah. GPT-4o memiliki kinerja yang sangat baik dalam pemahaman visual dan audio dibandingkan model yang sudah ada. Input teks dan gambar akan tersedia di API dan ChatGPT hari ini, dan input suara dan video akan menyusul dalam beberapa minggu mendatang.