OpenAI představuje PaperBench pro hodnocení AI agentů

--・Oficiální ověřený účet Binance

Podle BlockBeats OpenAI vydalo novou hodnotící metodu pro AI agenty nazvanou PaperBench. Tento benchmark, odhalený v 1:00 UTC+8, se zaměřuje na hodnocení schopností AI agentů v oblastech jako je vyhledávání, integrace a vykonávání. Vyžaduje replikaci nejlepších prací z Mezinárodní konference o strojovém učení 2024, testující porozumění agentů obsahu, psaní kódu a provádění experimentů.
Testovací data OpenAI ukazují, že i když renomované velké modely dosud nepřekonaly nejlepší odborníky na Ph.D. v oblasti strojového učení, ukazují se jako prospěšné při pomoci s učením a porozuměním výzkumnému obsahu.

Vyloučení odpovědnosti: Obsahuje názory třetích stran. Nejedná se o finanční poradenství. Může obsahovat sponzorovaný obsah. Viz obchodní podmínky.

Související novinky

OpenAI Unveils GPT-5.2-Codex and Plans Major Fundraising

OpenAI Opens ChatGPT App Submissions for Developers

AI Firms Explore Partnerships for Specialized Data Sets

OpenAI Launches Academy to Collaborate with News Organizations

OpenAI představuje PaperBench pro hodnocení AI agentů

Relevantní tvůrce

Nejnovější zprávy