Odaily Planet Daily'ye göre OpenAI, gerçek zamanlı olarak ses, görüntü ve metin hakkında akıl yürütebilen en son amiral gemisi modeli GPT-4o'yu piyasaya sürdü. Ana konsept, antropomorfik, doğaüstü, ultra düşük gecikmeli kişisel sesli etkileşimli asistandır. GPT-4o'daki 'o', daha doğal insan-bilgisayar etkileşimine doğru atılan bir adım olan Omni'yi temsil eder. Giriş olarak herhangi bir metin, ses ve görüntü kombinasyonunu kabul eder ve herhangi bir metin, ses ve görüntü çıkışı kombinasyonunun oluşturulmasını destekler.

Konuşma sırasındaki insan tepki sürelerine benzer şekilde, ses girişine 232 milisaniyede, ortalama 320 milisaniyede yanıt verebilmektedir. İngilizce ve kodda GPT-4 Turbo ile karşılaştırılabilir bir performansa sahip olup İngilizce dışındaki metinlerde önemli iyileştirmeler sağlarken API daha hızlı ve %50 daha ucuzdur. GPT-4o, mevcut modellerle karşılaştırıldığında özellikle görsel ve işitsel anlama konusunda iyi bir performans sergiliyor. Metin ve resim girişi bugün API ve ChatGPT'de mevcut olacak, önümüzdeki haftalarda ses ve video girişi de sunulacak.