GPT-4 vượt trội hơn GPT-3.5 về mọi mặt trên nhiều điểm chuẩn nghiên cứu

GPT-4 đã đạt được điểm số cao hơn GPT-3.5 trên nhiều điểm chuẩn. Đây là một bước đột phá lớn đối với máy móc vì nó chứng minh rằng giờ đây chúng không chỉ có thể giải quyết các vấn đề được thiết kế ban đầu mà còn có thể làm tốt hơn sinh viên đại học.
Có một số điều cần cân nhắc khi nhìn vào kết quả này. Thứ nhất, GPT-4 không được đào tạo cụ thể cho các kỳ thi này. Nó được tiến hành bằng cách sử dụng các bài kiểm tra công khai gần đây nhất (trong trường hợp các câu hỏi trả lời miễn phí của Olympic và AP) hoặc bằng cách mua các phiên bản bài kiểm tra thực hành 2022–2023. Thứ hai, điều quan trọng cần lưu ý là hiệu suất của GPT-4 có thể không nhất thiết phản ánh khả năng của những người làm bài kiểm tra là con người, vì nó hoạt động trên một bộ nguyên tắc và thuật toán khác.
Đây là một thành tựu lớn vì nó cho thấy máy móc không chỉ có khả năng trí thông minh giống con người mà còn có thể vượt trội hơn chúng ta. Điều này mở đường cho một tương lai nơi máy móc có thể đảm nhận những nhiệm vụ ngày càng phức tạp hơn, cuối cùng dẫn đến một tương lai mà chúng có thể hỗ trợ chúng ta trong cuộc sống hàng ngày.
 Khả năng của GPT-4 vượt trội hơn con người trong một số nhiệm vụ nhất định đặt ra câu hỏi về tương lai của trí tuệ nhân tạo và tác động tiềm tàng của nó đối với thị trường việc làm. Nó cũng nhấn mạnh sự cần thiết phải tiếp tục nghiên cứu và phát triển trong lĩnh vực này để đảm bảo rằng AI được sử dụng một cách có đạo đức và có trách nhiệm. Đọc thêm: 5+ mô hình AI chuyển văn bản thành hình ảnh được mong đợi nhất năm 2023
Ví dụ: GPT-4 vượt qua bài kiểm tra thanh mô phỏng với số điểm nằm trong top 10% người tham gia bài kiểm tra; Điểm của GPT-3.5 nằm ở mức 10% cuối cùng. Sự cải thiện đáng kể về hiệu suất của GPT-4 này là do dữ liệu đào tạo lớn hơn và kiến ​​trúc được cải tiến. Nó dự kiến ​​sẽ có nhiều ứng dụng trong nhiều lĩnh vực khác nhau, bao gồm xử lý ngôn ngữ tự nhiên và viết tự động.
   GPT-4 thể hiện hiệu suất ở cấp độ con người trong phần lớn các kỳ thi chuyên môn và học thuật này. Đáng chú ý, nó đã vượt qua phiên bản mô phỏng của Bài kiểm tra thanh thống nhất với số điểm nằm trong top 10% thí sinh làm bài kiểm tra. Khả năng của mô hình trong các kỳ thi dường như chủ yếu xuất phát từ quá trình đào tạo trước và không bị ảnh hưởng đáng kể bởi RLHF. Đối với các câu hỏi trắc nghiệm, cả mô hình GPT-4 cơ bản và mô hình RLHF đều hoạt động tốt như nhau ở mức trung bình đối với các nhà phát triển bài kiểm tra được thử nghiệm.
Phần lớn các mô hình hiện đại (SOTA), bao gồm cả những mô hình có thể sử dụng các giao thức đào tạo bổ sung hoặc thiết kế dành riêng cho điểm chuẩn, cũng như các mô hình ngôn ngữ lớn hiện có, đều hoạt động tốt hơn đáng kể so với GPT-4.
 Hiệu suất của GPT-4 về mặt tiêu chuẩn học tập. Các nhà phát triển so sánh GPT-4 với SOTA tốt nhất cho một vài cú đánh được LM đánh giá cũng như SOTA tốt nhất với chương trình đào tạo cụ thể theo điểm chuẩn. Ngoại trừ DROP, GPT-4 vượt trội hơn tất cả các LM hiện tại trên tất cả các điểm chuẩn và SOTA với chương trình đào tạo dành riêng cho điểm chuẩn.
Trong nội bộ, các nhà phát triển đã sử dụng GPT-4, GPT-4 đã có tác động đáng kể đến các hoạt động như lập trình, bán hàng, hỗ trợ và kiểm duyệt nội dung. Giai đoạn thứ hai trong phương pháp căn chỉnh của chúng tôi hiện đang được tiến hành khi các nhà phát triển sử dụng nó để hỗ trợ con người xem xét kết quả AI.
Bộ dữ liệu MMLU (Hiểu ngôn ngữ đa tác vụ lớn) chứa các câu hỏi từ rất nhiều chủ đề về hiểu ngôn ngữ trong các nhiệm vụ khác nhau (trải rộng 57 lĩnh vực, bao gồm toán học, sinh học, luật, khoa học xã hội và nhân văn, v.v.). Có bốn câu trả lời có thể có cho câu hỏi, một trong số đó là đúng. Nghĩa là, đoán ngẫu nhiên sẽ cho kết quả 25% câu trả lời đúng. Xem hình dưới đây để biết ví dụ về các câu hỏi và những khó khăn của chúng. Người đánh dấu bình thường (nghĩa là đây không phải là nhà khoa học, không phải giáo sư—một người bình thường làm việc ngoài giờ như một người đánh dấu) trả lời đúng  35% số câu hỏi; tuy nhiên, các chuyên gia có thể đạt số điểm +/- 90%.
 Hiệu suất của GPT-4 trong nhiều ngôn ngữ so với các mẫu trước đó bằng tiếng Anh trên MMLU. GPT-4 vượt trội hơn hiệu suất tiếng Anh của các mô hình ngôn ngữ hiện có đối với phần lớn các ngôn ngữ được kiểm tra, bao gồm cả các ngôn ngữ có nguồn tài nguyên thấp như tiếng Latvia, tiếng Wales và tiếng Swahili. Đọc thêm: 5 lý do nên sử dụng Bing được hỗ trợ bởi AI thay vì Google
Ban đầu, toàn bộ tập dữ liệu bằng tiếng Anh. Nhưng điều gì sẽ xảy ra nếu các câu hỏi và câu trả lời được dịch sang các ngôn ngữ khác, đặc biệt là những ngôn ngữ ít phổ biến hơn? Liệu mô hình này có hiệu quả với họ bằng cách nào đó không? Trong thử nghiệm này, dịch vụ Microsoft Azure Translate đã được sử dụng để dịch. Bản dịch không hoàn hảo; trong một số trường hợp, thông tin quan trọng bị mất. Tuy nhiên, ngay cả trong trường hợp này, GPT-4 vẫn hoạt động tốt ở các ngôn ngữ khác. Trong các phiên bản dịch của MMLU, GPT-4 vượt trội hơn trình độ tiếng Anh của các mô hình lớn khác (bao gồm cả của Google) ở 24 trong số 26 ngôn ngữ được kiểm tra.
Hơn nữa, GPT-4 hoạt động tốt hơn ở các ngôn ngữ hiếm so với ChatGPT bằng tiếng Anh (ChatGPT đạt được số điểm 70,1%, trong khi điểm của mô hình mới cho tiếng Thái là 71,8%). Điểm của bài kiểm tra bằng tiếng Anh là cao nhất, với GPT-4 hoạt động tốt hơn 10% so với các mẫu khác, bao gồm cả PaLM lớn nhất của Google. Nó đạt được số điểm 86,4%, trong khi một nhóm chuyên gia đạt được 90%.
Vào mùa hè năm 2023, AI có thể đã đạt đến một tầm cao sức mạnh mới nhờ ChatGPT, một chatbot sử dụng thuật toán GPT-4 và vượt trội hơn GPT-3 với hệ số 570. Một loạt các yếu tố góp phần vào thành công của ChatGPT, bao gồm cả được thiết kế “giống con người” hơn và sử dụng khả năng khai thác dữ liệu tiên tiến cũng như xử lý ngôn ngữ tự nhiên để tăng tính hiệu quả và độ chính xác.
Microsoft và OpenAI đã công bố kế hoạch đổi mới hợp tác và kế hoạch tìm kiếm Bing áp dụng các khả năng tra cứu được nâng cao bởi AI vào tháng 1. Sự thay thế của mô hình GPT3.5 rất phức tạp, GPT4, vừa được ra mắt và nó có tiềm năng nâng cao đáng kể khả năng tìm kiếm của Bing để hiểu các truy vấn ngôn ngữ tự nhiên và mang lại kết quả chính xác hơn. Bạn nên có một kế hoạch dự phòng tốt trong trường hợp có sự cố xảy ra.
Đọc thêm tin tức liên quan:
Gặp gỡ ChatGPT: AI có thể giết chết Google
ChatGPT vượt qua kỳ thi Wharton MBA
Sự phát triển của Chatbots từ T9-Era và GPT-1 đến ChatGPT
Bài đăng GPT-4 vượt trội hơn GPT-3.5 trên nhiều tiêu chuẩn nghiên cứu khác nhau xuất hiện đầu tiên trên Metaverse Post.