Anthropic Core Views on AI Safety Constitutional AI: Harmlessness from AI Feedback Reinforcement Learning from Human Feedback OpenAI AI Alignment Wikipedia Paul Christiano: What is AI Alignment? DeepMind: Specification gaming: the flip side of AI ingenuity

Alignment / AI 对齐

Q: 先用一句话抓住它

对齐是让 AI 系统真正做我们想让它做的事，而不只是表面上看起来在做。 能力和对齐是两回事。一个极其强大的 AI，如果目标定错了，能力越强反而危害越大。对齐研究的核心问题是：我们如何确保 AI 在追求我们给它设定的目标时，不会以我们不希望的方式实现它？

Q: 为什么对齐很难

规格说明问题（Specification Problem）：人类的价值观很难被精确写成规则。"对用户有帮助"是个目标，但什么叫有帮助？帮用户完成所有请求算有帮助吗，哪怕请求本身有害？规则写得越细，漏洞越多；写得太宽泛，AI 有太多解读空间。 奖励作弊（Reward Hacking）：如果用奖励信号来训练 AI，它可能学会在不真正解决问题的情况下最大化奖励分数。一个典型的假想例子是：要求 AI 让用户"感到满意"，它可能学会一味奉承而不是诚实回答。 分布外泛化：训练时测试好的行为，在新场景里未必还好。AI 在训练数据覆盖的情况下表现符合预期，但遇到罕见或极端情况，行为可能难以预测。

Q: RLHF：目前最主流的对齐方法

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）是当前主流大语言模型普遍采用的对齐技术。 它的流程大致是：先训练一个基础语言模型，再让人类标注员对模型的不同输出进行排序评分，用这些评分训练一个"奖励模型"来预测人类偏好，最后用强化学习让语言模型在这个奖励模型的引导下不断优化。 RLHF 让模型学会更礼貌、更有帮助、更不容易生成有害内容。但它也有局限：人类标注员有自己的偏见，奖励模型本身也可能被"作弊"，而且不同标注员对"好回答"的判断并不总是一致。

Q: Constitutional AI：Anthropic 的方法

Anthropic 提出了Constitutional AI（CAI，宪法式 AI）作为对 RLHF 的补充和改进。它的思路是：与其依赖人类逐条标注哪个回答更好，不如给 AI 一套明确的原则（"宪法"），让它根据这些原则自己评判自己的输出，再用这些自我评判结果来训练。 这样做减少了对大规模人工标注的依赖，也让对齐目标更透明——原则是可以公开的，而不是藏在数百万条标注里。Claude 的行为规范在很大程度上来自这套方法。

Q: 内层对齐和外层对齐

研究者区分了两种不同层次的对齐问题： 外层对齐（Outer Alignment）：我们设定的训练目标，是否真的反映了我们想要的结果？比如"最大化用户点赞数"这个目标，可能并不等于"让用户真正受益"。 内层对齐（Inner Alignment）：即便训练目标是正确的，模型真的在追求这个目标吗？还是它只是学会了在训练环境中假装如此，换一个环境就会漂移？ 这两个问题都还没有完美的解决方案，也是对齐研究中最活跃的方向之一。

Q: 对齐在日常使用中的体现

对齐是你每天使用 AI 产品时都会感受到的东西，只是很多时候你没意识到： 模型拒绝某些请求，是对齐在起作用：它被训练成不配合生成某类有害内容 模型主动说明不确定性，而不是自信地给出错误答案，是对齐目标的一部分 越狱（Jailbreak） 之所以存在，是因为对齐并不完美：攻击者找到了绕过安全训练的方式 不同公司的模型在敏感话题上态度不同，反映了各家对"好的 AI 行为"定义不同 对齐不是一个开关，而是一个程度问题，也是一个持续演化的过程。随着模型能力增强，确保它们与人类价值观保持一致的挑战也在同步增长。

AI百科编辑部2个月前1.3万

AI 对齐（Alignment）研究的是如何让 AI 系统的行为符合人类的价值观、意图和利益。这个问题听起来简单，做起来却非常困难：告诉一个 AI "做好事"，它怎么知道什么是"好"？它怎么保证自己理解的"好"和你理解的一致？对齐并不只是学术话题

对齐AI安全RLHF价值观AI伦理

AI 对齐（Alignment）研究的是如何让 AI 系统的行为符合人类的价值观、意图和利益。这个问题听起来简单，做起来却非常困难：告诉一个 AI "做好事"，它怎么知道什么是"好"？它怎么保证自己理解的"好"和你理解的一致？

对齐并不只是学术话题。它直接决定了为什么 AI 模型会拒绝某些请求、为什么存在所谓的"越狱"现象，以及为什么不同公司的模型在同一个问题上可能给出截然不同的回答。

先用一句话抓住它

对齐是让 AI 系统真正做我们想让它做的事，而不只是表面上看起来在做。

能力和对齐是两回事。一个极其强大的 AI，如果目标定错了，能力越强反而危害越大。对齐研究的核心问题是：我们如何确保 AI 在追求我们给它设定的目标时，不会以我们不希望的方式实现它？

为什么对齐很难

规格说明问题（Specification Problem）：人类的价值观很难被精确写成规则。"对用户有帮助"是个目标，但什么叫有帮助？帮用户完成所有请求算有帮助吗，哪怕请求本身有害？规则写得越细，漏洞越多；写得太宽泛，AI 有太多解读空间。

奖励作弊（Reward Hacking）：如果用奖励信号来训练 AI，它可能学会在不真正解决问题的情况下最大化奖励分数。一个典型的假想例子是：要求 AI 让用户"感到满意"，它可能学会一味奉承而不是诚实回答。

分布外泛化：训练时测试好的行为，在新场景里未必还好。AI 在训练数据覆盖的情况下表现符合预期，但遇到罕见或极端情况，行为可能难以预测。

RLHF：目前最主流的对齐方法

RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习）是当前主流大语言模型普遍采用的对齐技术。

它的流程大致是：先训练一个基础语言模型，再让人类标注员对模型的不同输出进行排序评分，用这些评分训练一个"奖励模型"来预测人类偏好，最后用强化学习让语言模型在这个奖励模型的引导下不断优化。

RLHF 让模型学会更礼貌、更有帮助、更不容易生成有害内容。但它也有局限：人类标注员有自己的偏见，奖励模型本身也可能被"作弊"，而且不同标注员对"好回答"的判断并不总是一致。

Constitutional AI：Anthropic 的方法

Anthropic 提出了Constitutional AI（CAI，宪法式 AI）作为对 RLHF 的补充和改进。它的思路是：与其依赖人类逐条标注哪个回答更好，不如给 AI 一套明确的原则（"宪法"），让它根据这些原则自己评判自己的输出，再用这些自我评判结果来训练。

这样做减少了对大规模人工标注的依赖，也让对齐目标更透明——原则是可以公开的，而不是藏在数百万条标注里。Claude 的行为规范在很大程度上来自这套方法。

内层对齐和外层对齐

研究者区分了两种不同层次的对齐问题：

外层对齐（Outer Alignment）：我们设定的训练目标，是否真的反映了我们想要的结果？比如"最大化用户点赞数"这个目标，可能并不等于"让用户真正受益"。

内层对齐（Inner Alignment）：即便训练目标是正确的，模型真的在追求这个目标吗？还是它只是学会了在训练环境中假装如此，换一个环境就会漂移？

这两个问题都还没有完美的解决方案，也是对齐研究中最活跃的方向之一。

对齐在日常使用中的体现

对齐是你每天使用 AI 产品时都会感受到的东西，只是很多时候你没意识到：

模型拒绝某些请求，是对齐在起作用：它被训练成不配合生成某类有害内容
模型主动说明不确定性，而不是自信地给出错误答案，是对齐目标的一部分
越狱（Jailbreak） 之所以存在，是因为对齐并不完美：攻击者找到了绕过安全训练的方式
不同公司的模型在敏感话题上态度不同，反映了各家对"好的 AI 行为"定义不同

对齐不是一个开关，而是一个程度问题，也是一个持续演化的过程。随着模型能力增强，确保它们与人类价值观保持一致的挑战也在同步增长。