Reddit热议:MLE-Bench 的提升有多少来自算法,多少来自更强模型和更多搜索?[R]

帖子指出,MLE-Bench 分数在过去两年从约30%跃升到80%,但作者质疑这并不必然代表自动化机器学习代理的算法本身取得同等幅度进步,可能混入了更强基础模型、更多搜索、问题定义变化以及过拟合等因素。正文引用的 FML-Bench 尝试把代码编辑代理、步骤定义和验证/测试划分统一起来,并在相同步数预算和相同模型条件下,再换一组任务评测,以衡量代理在搜索和记忆上的算法效率。其结果显示,两年前的 AIDE 算法在这些控制条件下可以追平现代代理或进化搜索系统,这与单看 MLE-Bench 分数上升形成区别:提升主要未必来自新算法。该结论的边界是,它只说明在统一设定和新任务测试下算法效率差异不明显,并不排除基础模型增强或更大搜索预算本身带来成绩提升。据Reddit报道。

来源:Reddit(r/MachineLearning)
原始发布时间:2026-06-01 22:34