OpenAI推出PaperBench进行AI代理评估

--・币安官方账号

根据BlockBeats的报道，OpenAI发布了一项新的AI代理评估基准，名为PaperBench。该基准于UTC+8时间凌晨1点揭晓，重点评估AI代理在搜索、集成和执行等领域的能力。它要求复制2024年国际机器学习会议的顶尖论文，以测试代理对内容、代码编写和实验执行的理解。
OpenAI的测试数据表明，尽管著名的大型模型尚未超过顶尖机器学习博士专家，但它们在辅助学习和理解研究内容方面证明是有益的。

免责声明：含第三方意见，不构成财务建议，并且可能包含赞助内容。详见《条款和条件》。

相关新闻

OpenAI发布GPT-5.2-Codex并计划大规模筹款

--

OpenAI为开发者开放ChatGPT应用程序提交

--

AI公司探索专门数据集的合作伙伴关系

--

OpenAI启动学院以与新闻机构合作

--

OpenAI 与亚马逊进行资金谈判以采用 AI 芯片

--