根據BlockBeats的報道,OpenAI發佈了一項新的AI代理評估基準,名爲PaperBench。該基準於UTC+8時間凌晨1點揭曉,重點評估AI代理在搜索、集成和執行等領域的能力。它要求複製2024年國際機器學習會議的頂尖論文,以測試代理對內容、代碼編寫和實驗執行的理解。

OpenAI的測試數據表明,儘管著名的大型模型尚未超過頂尖機器學習博士專家,但它們在輔助學習和理解研究內容方面證明是有益的。