Odaily によると、OpenAI は人工知能モデルのプログラミング能力を評価することを目的とした、改良されたコーディング チャレンジのセットを導入しました。これらのチャレンジは、ソフトウェア エンジニアリング ベンチマーク (SWE-bench) として知られる実際のプログラミング問題のコレクションから派生したものです。これらの問題の複雑さは、AI システムにとって大きな課題となります。