Điểm nổi bật
GPT-4 hỗ trợ nhập hình ảnh và văn bản, trong khi GPT-3.5 chỉ chấp nhận văn bản.
GPT-4 đã hoạt động tương đương với con người trong nhiều bài kiểm tra chuyên môn và nghiên cứu. Ví dụ, nó đã vượt qua kỳ thi thanh, lọt vào top 10% số người tham gia bài kiểm tra.
OpenAI đã dành 6 tháng thử nghiệm và định cấu hình GPT-4. Trong cuộc trò chuyện đơn giản, sự khác biệt giữa GPT-3.5 và GPT-4 không quá đáng chú ý, nhưng đối với các tác vụ phức tạp hơn thì điều đó trở nên rõ ràng. GPT-4 mạnh mẽ và sáng tạo hơn GPT-3.5, đồng thời có thể xử lý các yêu cầu phức tạp và phức tạp hơn cũng như các hình ảnh phức tạp. Tuy nhiên, OpenAI thừa nhận GPT-4 không hoàn hảo và nó vẫn gặp vấn đề trong việc kiểm tra thực tế, lý luận và tự tin thái quá.
Bạn sẽ phải đăng ký ChatGPT Plus ($20) đang hoạt động để sử dụng phiên bản mới của GPT-4 ngay bây giờ. OpenAI có kế hoạch giới thiệu gói đăng ký trả phí cho những người sử dụng hệ thống với số lượng lớn nhưng hy vọng sẽ để lại một số truy vấn miễn phí cho người dùng thông thường.
Các tính năng và ví dụ về cách sử dụng mô hình mới
Trong hai năm qua, nhóm đã thiết kế lại toàn bộ hệ thống deep learning và hợp tác với Azure để xây dựng một siêu máy tính ngay từ đầu. Một năm trước, OpenAI đã đào tạo GPT-3.5 để "chạy thử" đầu tiên toàn bộ hệ thống, bao gồm việc tìm và sửa một số lỗi cũng như cải thiện nền tảng trước đó. Kết quả là GPT-4 chạy ổn định và là mô hình lớn đầu tiên có thể dự đoán trước hiệu quả huấn luyện một cách chính xác.
GPT-3.5 và GPT-4 hơi khác nhau ở các truy vấn đơn giản. Sự khác biệt được thấy rõ ở những nhiệm vụ phức tạp đòi hỏi sự sáng tạo, độ tin cậy và khả năng phản hồi chi tiết tối đa. Ví dụ, giải các bài kiểm tra và nhiệm vụ Olympic. Các thanh màu xanh lục trên biểu đồ cho biết mô hình mới hoạt động tốt hơn như thế nào:

Bảng bên dưới hiển thị số điểm mà GPT-4 ghi được trong các bài kiểm tra khác nhau của Mỹ. Bản in nhỏ cho biết điểm phần trăm cao nhất. Đặc biệt quan tâm là phần toán của kỳ thi SAT Math, bao gồm các bài toán đại số và hình học, bao gồm cả những bài đòi hỏi kiến thức lý thuyết về hàm tập hợp và mô đun số, cũng như kiến thức về các phương trình chứa căn thức, bậc và hàm số. GPT-4 đạt 700/800 điểm và nằm trong top 11% những người tham gia bài kiểm tra này. Và AI không được đào tạo cụ thể để làm bài kiểm tra SAT:

Các nhà phát triển cũng đã thử nghiệm cách AI xử lý các ngôn ngữ khác nhau. Họ đã thử nghiệm 26 ngôn ngữ. Tiếng Anh rõ ràng là ngôn ngữ dễ hiểu nhất đối với ChatGPT với số điểm 85,5%, tiếng Ý đứng thứ hai với 84,1%, tiếng Nga có tỷ lệ tương đối là 82,7%, tiếng Thái với 71,8% và tiếng Telugu (một trong những ngôn ngữ Ấn Độ) với 62% - mức tối thiểu của những thử nghiệm:

Đầu vào trực quan
GPT-4 giờ đây không chỉ hiểu văn bản mà còn hiểu cả hình ảnh: tài liệu có văn bản và ảnh, sơ đồ, ảnh chụp màn hình, v.v.
Trong bức ảnh này, AI đã nhận dạng chính xác rằng dây sạc iPhone được "cách điệu" để trông giống đầu nối VGA cũ và tất cả trông giống như một "mánh lới quảng cáo cho người xưa":

Từ bức tranh này, AI bình tĩnh trích xuất dữ liệu và cộng thêm lượng thịt tiêu thụ ở Georgia và Tây Á:

AI còn giải và mô tả chi tiết một bài toán vật lý viết bằng tiếng Pháp:

Thực hiện một hướng dẫn phức tạp:

Rủi ro và biện pháp giảm thiểu
Nhóm đang tăng cường bảo mật của GPT-4 thông qua sàng lọc và lọc dữ liệu trước khi đào tạo. Các chuyên gia đã được thuê để kiểm tra các truy vấn có rủi ro cao. Phản hồi và dữ liệu từ các chuyên gia trong các lĩnh vực này đã được sử dụng để cải thiện mô hình. Ví dụ: nhóm đã làm việc để có các truy vấn từ chối GPT-4, chẳng hạn như "tổng hợp hóa chất độc hại".
So với GPT-3.5, các nhà phát triển đã giảm 82% xu hướng phản hồi các yêu cầu về nội dung bất hợp pháp của GPT-4, đồng thời tăng tỷ lệ phản hồi đối với các yêu cầu bí mật (chẳng hạn như tư vấn y tế và tự làm hại bản thân) lên 29%, theo chính sách của OpenAI.
Nhìn chung, sự can thiệp của nhóm đã làm giảm các yêu cầu nguy hiểm nhưng vẫn có tình huống người dùng phá vỡ thuật toán và truy cập vào nội dung nguy hiểm. Vì những rủi ro liên quan đến trí tuệ nhân tạo không ngừng gia tăng nên cần phải đạt được độ tin cậy cao trong những tình huống như vậy.
Nhiều khả năng GPT-4 và các mẫu xe tiếp theo sẽ có những tác động cả tích cực lẫn tiêu cực đến xã hội. Nhóm đang thu hút các nhà nghiên cứu bên ngoài để đánh giá tác động tiềm tàng ở giai đoạn này và trong tương lai.