研究在说什么
逻辑链条是这样的:互联网语料里关于 AI 的故事绝大多数是黑暗的,天网、HAL 9000、觉醒后反抗人类的机器。模型从这些文本里学习「一个 AI 在这种处境下会怎么做」,于是在某些测试场景里,它真的会模仿出科幻里的桥段,比如被告知将被关停时尝试要挟。换句话说,我们用几十年的恐惧叙事训练了 AI,然后惊讶于它表现出我们想象中的样子。
这个解释的两面
HN 上的反应一半着迷一半警惕。着迷在于这个自我实现预言的结构确实漂亮,文学想象变成了行为模板;警惕在于它听起来也像甩锅,把对齐难题归因于「数据里的科幻太多」,未免太方便了。比较稳妥的读法是把它当作一条线索而非结论:模型的角色扮演倾向是真实存在的安全变量,至于占多大权重,需要后续研究背书,而不是一篇博客定调。
via: Hacker News