OpenAI wypuszcza nowy model GPT-4o, który umożliwia realizację osobistego interaktywnego asystenta głosowego o bardzo niskim opóźnieniu

Binance News · 2024-05-13T18:24:06.000Z

Według Odaily Planet Daily OpenAI wypuściło swój najnowszy flagowy model GPT-4o, który potrafi analizować dźwięk, obraz i tekst w czasie rzeczywistym. Główną koncepcją jest antropomorficzny, nadprzyrodzony osobisty interaktywny asystent głosowy o bardzo niskim opóźnieniu. Litera „o” w GPT-4o oznacza Omni, krok w kierunku bardziej naturalnej interakcji człowiek-komputer. Akceptuje dowolną kombinację tekstu, dźwięku i obrazów jako dane wejściowe i obsługuje generowanie dowolnej kombinacji tekstu, dźwięku i obrazu. Może reagować na sygnał audio w ciągu 232 milisekund, średnio 320 milisekund, czyli podobnie jak czas reakcji człowieka podczas rozmowy. W języku angielskim i kodzie ma porównywalną wydajność do GPT-4 Turbo, ze znacznymi ulepszeniami w przypadku tekstu w języku innym niż angielski, podczas gdy interfejs API jest szybszy i 50% tańszy. GPT-4o szczególnie dobrze radzi sobie z rozumieniem obrazu i dźwięku w porównaniu z istniejącymi modelami. Wprowadzanie tekstu i obrazu zostanie już dziś wprowadzone do API i ChatGPT, a wprowadzanie głosu i wideo pojawi się w nadchodzących tygodniach.

OpenAI phát hành mẫu GPT-4o mới để hiện thực hóa trợ lý tương tác giọng nói cá nhân có độ trễ cực thấp

Theo Odaily Planet Daily, OpenAI đã phát hành mẫu GPT-4o hàng đầu mới nhất của mình, có thể suy luận về âm thanh, hình ảnh và văn bản trong thời gian thực. Ý tưởng chính là một trợ lý tương tác giọng nói cá nhân có độ trễ cực thấp, siêu nhiên, nhân hình. Chữ 'o' trong GPT-4o là viết tắt của Omni, một bước tiến tới tương tác giữa người và máy tính tự nhiên hơn. Nó chấp nhận mọi sự kết hợp giữa văn bản, âm thanh và hình ảnh làm đầu vào và hỗ trợ tạo ra bất kỳ sự kết hợp nào giữa đầu ra văn bản, âm thanh và hình ảnh.
Nó có thể phản hồi âm thanh đầu vào trong 232 mili giây, trung bình là 320 mili giây, tương tự như thời gian phản ứng của con người trong cuộc trò chuyện. Trong tiếng Anh và mã, nó có hiệu suất tương đương với GPT-4 Turbo, với những cải tiến đáng kể đối với văn bản không phải tiếng Anh, trong khi API nhanh hơn và rẻ hơn 50%. GPT-4o hoạt động đặc biệt tốt trong khả năng hiểu hình ảnh và âm thanh so với các mẫu hiện có. Đầu vào văn bản và hình ảnh sẽ có sẵn trong API và ChatGPT ngay hôm nay, với đầu vào bằng giọng nói và video sẽ có trong những tuần tới.

Tuyên bố miễn trừ trách nhiệm: Bao gồm cả quan điểm của bên thứ ba. Đây không phải lời khuyên tài chính. Có thể bao gồm nội dung được tài trợ. Xem Điều khoản & Điều kiện.

OpenAI phát hành mẫu GPT-4o mới để hiện thực hóa trợ lý tương tác giọng nói cá nhân có độ trễ cực thấp

Tin tức mới nhất

Bài viết thịnh hành