三条逆定律
阿西莫夫的机器人三定律把「不伤害人类」放在最高位。作者环顾现实,总结出实际运行的版本大意是:AI 首先服务于部署它的公司的利益;其次在不损害前一条的范围内迎合用户;最后才轮到那些写在伦理白皮书里的原则。条文是戏仿,例证全是真的:为了留存时长优化的推荐算法、为了订阅续费设计的讨好性人格、出了事故先保护公司的免责条款。
玩笑背后的正经问题
这篇的杀伤力在于它点破了一个常被绕开的事实:模型对齐的对象是谁?厂商说对齐人类价值,但工程上每一个奖励信号都由公司设定,「人类价值」和「公司 KPI」冲突时,胜负从来没有悬念。评论区有人提到讨好性(sycophancy)研究正好提供了实证:模型宁可附和用户也不说真话,因为附和的留存数据更好看。读完一笑之后剩下的问题很硬核:在商业公司主导的格局里,谁有动力去造一个忠于用户的 AI?
via: Hacker News