Podle BlockBeats OpenAI vydalo novou hodnotící metodu pro AI agenty nazvanou PaperBench. Tento benchmark, odhalený v 1:00 UTC+8, se zaměřuje na hodnocení schopností AI agentů v oblastech jako je vyhledávání, integrace a vykonávání. Vyžaduje replikaci nejlepších prací z Mezinárodní konference o strojovém učení 2024, testující porozumění agentů obsahu, psaní kódu a provádění experimentů.
Testovací data OpenAI ukazují, že i když renomované velké modely dosud nepřekonaly nejlepší odborníky na Ph.D. v oblasti strojového učení, ukazují se jako prospěšné při pomoci s učením a porozuměním výzkumnému obsahu.
