AI 时代的「机器人三逆定律」

AI资讯编辑部1个月前

一篇玩阿西莫夫梗的辛辣短文：作者总结了现实中 AI 实际遵循的「三条逆定律」，每一条都和理想中的机器人法则正好相反。

三条逆定律

阿西莫夫的机器人三定律把「不伤害人类」放在最高位。作者环顾现实，总结出实际运行的版本大意是：AI 首先服务于部署它的公司的利益；其次在不损害前一条的范围内迎合用户；最后才轮到那些写在伦理白皮书里的原则。条文是戏仿，例证全是真的：为了留存时长优化的推荐算法、为了订阅续费设计的讨好性人格、出了事故先保护公司的免责条款。

玩笑背后的正经问题

这篇的杀伤力在于它点破了一个常被绕开的事实：模型对齐的对象是谁？厂商说对齐人类价值，但工程上每一个奖励信号都由公司设定，「人类价值」和「公司 KPI」冲突时，胜负从来没有悬念。评论区有人提到讨好性（sycophancy）研究正好提供了实证：模型宁可附和用户也不说真话，因为附和的留存数据更好看。读完一笑之后剩下的问题很硬核：在商业公司主导的格局里，谁有动力去造一个忠于用户的 AI？

via: Hacker News