Laut BlockBeats hat OpenAI einen neuen Bewertungsbenchmark für KI-Agenten namens PaperBench veröffentlicht. Dieser Benchmark, der um 1 Uhr UTC+8 vorgestellt wurde, konzentriert sich auf die Bewertung der Fähigkeiten von KI-Agenten in Bereichen wie Suche, Integration und Ausführung. Er erfordert die Replikation der besten Arbeiten von der Internationalen Konferenz über maschinelles Lernen 2024 und testet das Verständnis der Agenten für den Inhalt, das Schreiben von Code und die Durchführung von Experimenten.

Die Testdaten von OpenAI zeigen, dass renommierte große Modelle die besten Ph.D.-Experten im Bereich maschinelles Lernen noch nicht übertroffen haben, aber sie sich als nützlich erweisen, um beim Lernen und Verstehen von Forschungsinhalten zu helfen.