Theo Odaily Planet Daily, OpenAI đã phát hành mẫu GPT-4o hàng đầu mới nhất của mình, có thể suy luận về âm thanh, hình ảnh và văn bản trong thời gian thực. Ý tưởng chính là một trợ lý tương tác giọng nói cá nhân có độ trễ cực thấp, siêu nhiên, nhân hình. Chữ 'o' trong GPT-4o là viết tắt của Omni, một bước tiến tới tương tác giữa người và máy tính tự nhiên hơn. Nó chấp nhận mọi sự kết hợp giữa văn bản, âm thanh và hình ảnh làm đầu vào và hỗ trợ tạo ra bất kỳ sự kết hợp nào giữa đầu ra văn bản, âm thanh và hình ảnh.

Nó có thể phản hồi âm thanh đầu vào trong 232 mili giây, trung bình là 320 mili giây, tương tự như thời gian phản ứng của con người trong cuộc trò chuyện. Trong tiếng Anh và mã, nó có hiệu suất tương đương với GPT-4 Turbo, với những cải tiến đáng kể đối với văn bản không phải tiếng Anh, trong khi API nhanh hơn và rẻ hơn 50%. GPT-4o hoạt động đặc biệt tốt trong khả năng hiểu hình ảnh và âm thanh so với các mẫu hiện có. Đầu vào văn bản và hình ảnh sẽ có sẵn trong API và ChatGPT ngay hôm nay, với đầu vào bằng giọng nói và video sẽ có trong những tuần tới.