Як повідомляє PANews, OpenAI запустив новий тест під назвою MLE-bench, який призначений для оцінки продуктивності агентів штучного інтелекту при розробці рішень для машинного навчання. Тест охоплює 75 змагань Kaggle і зосереджується на оцінці складних завдань у поточній розробці машинного навчання та порівнянні результатів ШІ з продуктивністю людини.

Під час попереднього тестування модель o1-preview у поєднанні з інфраструктурою AIDE продемонструвала найкращі результати, завоювавши бронзу в 16,9% змагань, перевершивши Claude 3.5 Sonnet від Anthropic. Завдяки збільшенню кількості спроб показник успіху o1-preview подвоївся до 34,1%.

OpenAI вважає, що MLE-стенд корисний для оцінки основних інженерних навичок ML, хоча він не охоплює всі сфери досліджень ШІ.