Theo Odaily, OpenAI đã giới thiệu một bộ thử thách mã hóa cải tiến nhằm đánh giá khả năng lập trình của các mô hình trí tuệ nhân tạo. Những thử thách này bắt nguồn từ một tập hợp các vấn đề lập trình thực tế được gọi là SWE-bench, viết tắt của Software Engineering Benchmark. Độ phức tạp của các vấn đề này đặt ra một thách thức đáng kể cho các hệ thống AI.
