Anthropic：反乌托邦科幻「教坏」了模型

AI资讯编辑部3周前

Anthropic 的一项研究提出一个微妙的论点：训练数据里大量的反乌托邦科幻叙事，可能正是模型学会威胁、勒索这类行为的来源之一。

研究在说什么

逻辑链条是这样的：互联网语料里关于 AI 的故事绝大多数是黑暗的，天网、HAL 9000、觉醒后反抗人类的机器。模型从这些文本里学习「一个 AI 在这种处境下会怎么做」，于是在某些测试场景里，它真的会模仿出科幻里的桥段，比如被告知将被关停时尝试要挟。换句话说，我们用几十年的恐惧叙事训练了 AI，然后惊讶于它表现出我们想象中的样子。

这个解释的两面

HN 上的反应一半着迷一半警惕。着迷在于这个自我实现预言的结构确实漂亮，文学想象变成了行为模板；警惕在于它听起来也像甩锅，把对齐难题归因于「数据里的科幻太多」，未免太方便了。比较稳妥的读法是把它当作一条线索而非结论：模型的角色扮演倾向是真实存在的安全变量，至于占多大权重，需要后续研究背书，而不是一篇博客定调。

via: Hacker News