OpenAI推出PaperBench進行AI代理評估

--・通過驗證的幣安官方帳戶

根據BlockBeats的報道，OpenAI發佈了一項新的AI代理評估基準，名爲PaperBench。該基準於UTC+8時間凌晨1點揭曉，重點評估AI代理在搜索、集成和執行等領域的能力。它要求複製2024年國際機器學習會議的頂尖論文，以測試代理對內容、代碼編寫和實驗執行的理解。
OpenAI的測試數據表明，儘管著名的大型模型尚未超過頂尖機器學習博士專家，但它們在輔助學習和理解研究內容方面證明是有益的。

免責聲明：包含來自第三方的見解。非財務建議。可能包含贊助內容。請參閱條款。

相關新聞

OpenAI 揭示 GPT-5.2-Codex 並計劃重大募資

--

OpenAI為開發者開放ChatGPT應用程序提交

--

AI公司探索專門數據集的合作夥伴關係

--

OpenAI啓動學院以與新聞機構合作

--