AIMPACT 消息,5 月 15 日(UTC+8),斯坦福NLP团队在ICML 2026会议上展示了一项自动化AI研究新工作,通过构建自动化执行器,将LLM预训练和后训练转化为执行环境,并利用执行反馈提升研究有效性。研究分析了两种方法:进化搜索样本效率高,在后训练任务中找到的方法优于GRPO基线(69.4%对比48.0%),在预训练任务中找到的配方优于nanoGPT基线(19.7分钟对比35.9分钟),均在十个搜索周期内完成;而基于执行奖励的强化学习面临模式崩溃问题,虽提高平均奖励但未提升上限。该工作为执行导向的自动化AI研究提供了方向。(来源:ME)
