Claude Mythos 系统卡(预览版)流出

一份标注为 Claude Mythos 预览版的系统卡 PDF 在 HN 上被逐页围观,新模型的能力边界和安全评估细节都藏在这类文档里。

系统卡为什么值得读

系统卡是模型厂商的「体检报告」:能力测试、危险性评估、红队结果、已知缺陷,比发布会诚实得多,因为它的读者是监管和研究者,吹牛的代价高。这份 Mythos 预览版被热议,一是型号本身的神秘(外界对它的定位猜测很多,从高安全场景的特供版到下一代旗舰的试水都有),二是文档里照例埋着真料:哪些测试不及格、哪些行为被标注为需要缓解,这些段落比任何评测文章都接近模型的真实轮廓。

读这类文档的方法

社区总结过一套读法:跳过营销味的概述,直奔危险能力评估和局限性章节;对比上一代系统卡看哪些指标悄悄变化、哪些测试项目消失了(消失往往比出现更有信息量);红队部分注意「缓解后」的措辞,缓解不等于解决。还有一条提醒:预览版文档存在被撤回和修订的可能,引用时留好快照。系统卡正在变成 AI 行业的半监管文书,学会读它,约等于拿到了一手信息的门票。

via: Hacker News