斯坦福NLP团队展示自动化AI研究新进展

AIMPACT 消息，5 月 15 日（UTC+8），斯坦福NLP团队在ICML 2026会议上展示了一项自动化AI研究新工作，通过构建自动化执行器，将LLM预训练和后训练转化为执行环境，并利用执行反馈提升研究有效性。研究分析了两种方法：进化搜索样本效率高，在后训练任务中找到的方法优于GRPO基线（69.4%对比48.0%），在预训练任务中找到的配方优于nanoGPT基线（19.7分钟对比35.9分钟），均在十个搜索周期内完成；而基于执行奖励的强化学习面临模式崩溃问题，虽提高平均奖励但未提升上限。该工作为执行导向的自动化AI研究提供了方向。（来源：ME）