「变笨」的指控
作者的感受代表了相当一部分重度用户的体验,曾经得心应手的工具,某段时间起表现明显下滑,复杂任务处理变差、需要更多引导、产出质量不稳。这种「降智」的指控在各家 AI 服务的社区里周期性爆发。难点在于举证,用户的体感是真实的,但难以复现、难以量化,而厂商往往回应「模型没有变」,变的可能是路由策略、量化方式、系统提示或额度政策,每一样都影响表现,却都不算「模型本身变了」。双方各执一词,谁也说服不了谁。
信任在不透明里磨损
这场反复上演的「变笨」之争,根子在不可审计性。AI 服务是个黑盒,用户付固定的钱,得到一个表现会波动、却无法独立验证的服务,而算力紧张时,厂商最顺手的调节阀恰恰是悄悄收紧额度、降低档位。当「变差了」连举证都困难,信任就在信息不对称里慢慢流失。出路其实存在,公开的质量基线、可查询的变更日志,但鲜有厂商愿意主动戴上这副镣铐。在那之前,重度用户能做的是自建小型回归集,用一批固定任务定期跑分,用数据而非玄学判断工具有没有退步。
via: Hacker News