BlockBeatsによると、OpenAIはPaperBenchという新しいAIエージェント評価ベンチマークを発表しました。このベンチマークは、UTC+8の午前1時に発表され、検索、統合、実行などの分野におけるAIエージェントの能力を評価することに焦点を当てています。2024年の国際機械学習会議のトップ論文の複製が必要であり、エージェントの内容理解、コード作成、実験実行の能力をテストしています。

OpenAIのテストデータは、著名な大規模モデルがトップの機械学習の博士号専門家をまだ超えていないことを明らかにしていますが、研究内容の学習と理解を支援する上で有益であることを証明しています。