前沿LLM在现实世界的事实核查方面存在分歧

AI资讯编辑部2周前

一项测试把同一批真实世界的事实核查问题喂给多家前沿模型，结果它们的答案分歧大得超出预期，谁也不能当裁判。

测试发现了什么

实验设计不复杂：拿现实中有争议或需要核实的陈述，分别问各家旗舰模型，比较结论。结果是模型之间频繁互相矛盾，而且每一家都用同样自信的语气给出答案。更麻烦的是分歧没有稳定模式，不是某家系统性偏左或偏右，而是随题目随机摇摆，这意味着「多问几家取共识」的土办法也不太靠得住。

对使用者的提醒

这个结果对把 LLM 当事实来源的人是个警钟。模型的训练目标是生成连贯合理的文本，不是核实真伪，它们在事实问题上的可靠度取决于训练数据的覆盖和清洁度，而现实争议恰恰是数据最浑浊的地方。实际可行的用法是让模型做检索和归纳的助手，给出处、列证据，由人来下结论。任何跳过出处直接要答案的用法，在争议性话题上都等于掷骰子。

via: Hacker News