报告描述的症状
发帖人的观察很具体:日常的小修小补一切正常,但涉及多文件重构、长链路调试这类复杂任务时,更新后的版本频繁中途迷失,丢上下文、绕圈子、把改到一半的方案推翻重来。这种「简单任务无恙、复杂任务垮掉」的模式让问题格外难缠:官方的回归测试大概率覆盖不到这个深度,用户的证据又都是难以复现的个人案例,双方各执一词,谁也说服不了谁。
「变笨了」之争的死结
这类争论在每家模型厂商的社区都周期性上演,死结在于不可审计:厂商说模型没变,可能是真话(变的是路由、量化、系统提示或额度策略,每一样都影响表现但都不算「模型变了」);用户的体感也可能是真的,复杂任务对这些底层变化最敏感。出路其实存在:公开的质量基线、可查询的服务变更日志,但没有厂商愿意先戴上这副镣铐。在那之前,重度用户能做的是自建小型回归集,用数据说话,至少让自己的判断不靠玄学。
via: Hacker News