500 美元 GPU 上的模型,在编码基准上赢了 Sonnet

一个跑在 500 美元消费级 GPU 上的模型,在编码基准测试里超过了 Claude Sonnet。标题很炸,细看之后结论需要加几个限定词。

成绩单怎么读

先承认惊艳的部分:几年前「本地硬件跑出旗舰级编码表现」还是笑话,现在是可复现的结果,小模型加蒸馏加针对性微调的进步是实打实的。再加上限定词:赢的是特定基准,而编码基准和真实工程的相关性一直存疑;针对基准优化的小模型,泛化能力通常立刻露馅;Sonnet 是中端型号,不是对方家的旗舰。把这些限定词加全,结论从「本地模型超越云端」缩水成「特定任务上本地方案够用了」,但后者其实已经是大新闻。

「够用」的经济学

这条新闻真正的受众是成本敏感的工程团队:如果你的场景是大量同质化的编码任务(补全、测试生成、格式转换),一块消费级 GPU 加开源模型的方案,单位成本可能比 API 低一两个数量级,数据还不出门。云端旗舰的护城河退守到最难的那一档任务上。这个分层会越来越清晰:旗舰模型做攻坚,本地小模型做流水线。提前把任务按难度分好层的团队,账单会好看很多。

via: Hacker News