根据BlockBeats的报道,OpenAI发布了一项新的AI代理评估基准,名为PaperBench。该基准于UTC+8时间凌晨1点揭晓,重点评估AI代理在搜索、集成和执行等领域的能力。它要求复制2024年国际机器学习会议的顶尖论文,以测试代理对内容、代码编写和实验执行的理解。

OpenAI的测试数据表明,尽管著名的大型模型尚未超过顶尖机器学习博士专家,但它们在辅助学习和理解研究内容方面证明是有益的。