Podle PANews OpenAI spustilo nový benchmark nazvaný MLE-bench, který je určen k hodnocení výkonu agentů AI při vývoji řešení strojového učení. Benchmark pokrývá 75 soutěží Kaggle a zaměřuje se na hodnocení náročných úkolů v současném vývoji strojového učení a porovnávání výsledků AI s lidským výkonem.
V předběžném testování si nejlépe vedl model o1-preview v kombinaci s frameworkem AIDE, který vyhrál bronz v 16,9 % soutěže a překonal tak Anthropic's Claude 3.5 Sonnet. Zvýšením počtu pokusů se úspěšnost o1-preview zdvojnásobila na 34,1 %.
OpenAI věří, že MLE-bench je užitečný pro hodnocení klíčových inženýrských dovedností ML, i když nepokrývá všechny oblasti výzkumu AI.