Згідно з Odaily Planet Daily, OpenAI випустив свою останню флагманську модель GPT-4o, яка може міркувати про аудіо, зображення та текст у режимі реального часу. «O» у GPT-4o означає Omni, крок до більш природної взаємодії людини з комп’ютером. Він приймає будь-яку комбінацію тексту, аудіо та зображень як вхідні дані та підтримує генерацію будь-якої комбінації виводу тексту, аудіо та зображень.

Він може реагувати на аудіосигнал за 232 мілісекунди, в середньому за 320 мілісекунд, що відповідає часу реакції людини під час розмови. Англійською мовою та кодом він має порівнянну продуктивність із GPT-4 Turbo, зі значними покращеннями щодо тексту не англійською мовою, а API швидший і на 50% дешевший. Порівняно з існуючими моделями, GPT-4o особливо добре сприймає візуальне та звукове сприйняття. Введення тексту та зображень буде доступне в API та ChatGPT сьогодні, а введення голосу та відео – найближчими тижнями.