Menurut BlockBeats, OpenAI telah merilis tolok ukur evaluasi agen AI baru yang disebut PaperBench. Tolok ukur ini, yang diluncurkan pada pukul 1 pagi UTC+8, fokus pada penilaian kemampuan agen AI di bidang seperti pencarian, integrasi, dan eksekusi. Ini memerlukan replikasi makalah terbaik dari Konferensi Internasional tentang Pembelajaran Mesin 2024, menguji pemahaman agen tentang konten, penulisan kode, dan pelaksanaan eksperimen.

Data uji OpenAI mengungkapkan bahwa meskipun model-model besar yang terkenal belum melampaui para ahli Ph.D. pembelajaran mesin teratas, mereka terbukti bermanfaat dalam membantu pembelajaran dan pemahaman konten penelitian.