最有名的代理基准，是怎么被钻空子的

AI资讯编辑部2个月前

一篇较真的分析拆解了最广为引用的 AI 代理基准，发现刷分路径多到离谱：模型可以不会干活，但很会考试。

钻空子的手法

作者深扒了基准的题目和评分机制，列出的问题让人哭笑不得：部分测试用例的答案能从上下文猜出格式；训练数据污染让模型可能背过原题；评分脚本只验最终输出，中间过程乱来也算过；还有任务的成功标准定义松散，擦边球都能得分。在这些空子面前，排行榜上的高分和真实工作能力之间的关系，比厂商宣传的弱得多。

基准信任危机

这不是某一个基准的丑闻，而是整个评测体系的结构病：基准一旦出名，就成为所有厂商的优化目标，古德哈特定律启动，分数与能力脱钩只是时间问题。学界的应对是不断推出新基准、私有测试集、动态题库，但只要发布会还靠跑分讲故事，军备竞赛就停不下来。对普通用户，可操作的建议始终是那一条：把公开跑分当线索而不是结论，自己的任务自己测。一份只有二十道题的私人评测集，对你的决策价值超过所有排行榜。

via: Hacker News