По данным Odaily Planet Daily, OpenAI выпустила свою последнюю флагманскую модель GPT-4o, которая может рассуждать об аудио, зрении и тексте в режиме реального времени. Основная концепция — это антропоморфный, сверхъестественный персональный голосовой интерактивный помощник со сверхмалой задержкой. Буква «o» в GPT-4o означает Omni, что является шагом к более естественному взаимодействию человека с компьютером. Он принимает любую комбинацию текста, аудио и изображений в качестве входных данных и поддерживает создание любой комбинации вывода текста, аудио и изображений.

Он может реагировать на аудиовход за 232 миллисекунды, в среднем 320 миллисекунд, что соответствует времени реакции человека во время разговора. На английском языке и коде его производительность сравнима с GPT-4 Turbo, со значительными улучшениями при работе с текстом на неанглоязычном языке, а API работает быстрее и на 50 % дешевле. GPT-4o особенно хорошо справляется с визуальным и звуковым восприятием по сравнению с существующими моделями. Ввод текста и изображений будет доступен в API и ChatGPT сегодня, а ввод голоса и видео появится в ближайшие недели.