Secondo BlockBeats, OpenAI ha rilasciato un nuovo benchmark di valutazione degli agenti AI chiamato PaperBench. Questo benchmark, svelato alle 1 del mattino UTC+8, si concentra sulla valutazione delle capacità degli agenti AI in aree come ricerca, integrazione ed esecuzione. Richiede la replica dei migliori articoli della Conferenza Internazionale sul Machine Learning del 2024, testando la comprensione del contenuto, la scrittura di codice e l'esecuzione di esperimenti da parte degli agenti.
I dati di test di OpenAI rivelano che, mentre i noti grandi modelli non hanno ancora superato i migliori esperti di dottorato in machine learning, si stanno dimostrando utili nell'assistere con l'apprendimento e la comprensione dei contenuti di ricerca.
