钻空子的手法
作者深扒了基准的题目和评分机制,列出的问题让人哭笑不得:部分测试用例的答案能从上下文猜出格式;训练数据污染让模型可能背过原题;评分脚本只验最终输出,中间过程乱来也算过;还有任务的成功标准定义松散,擦边球都能得分。在这些空子面前,排行榜上的高分和真实工作能力之间的关系,比厂商宣传的弱得多。
基准信任危机
这不是某一个基准的丑闻,而是整个评测体系的结构病:基准一旦出名,就成为所有厂商的优化目标,古德哈特定律启动,分数与能力脱钩只是时间问题。学界的应对是不断推出新基准、私有测试集、动态题库,但只要发布会还靠跑分讲故事,军备竞赛就停不下来。对普通用户,可操作的建议始终是那一条:把公开跑分当线索而不是结论,自己的任务自己测。一份只有二十道题的私人评测集,对你的决策价值超过所有排行榜。
via: Hacker News