前沿LLM在现实世界的事实核查方面存在分歧

一项测试把同一批真实世界的事实核查问题喂给多家前沿模型,结果它们的答案分歧大得超出预期,谁也不能当裁判。

测试发现了什么

实验设计不复杂:拿现实中有争议或需要核实的陈述,分别问各家旗舰模型,比较结论。结果是模型之间频繁互相矛盾,而且每一家都用同样自信的语气给出答案。更麻烦的是分歧没有稳定模式,不是某家系统性偏左或偏右,而是随题目随机摇摆,这意味着「多问几家取共识」的土办法也不太靠得住。

对使用者的提醒

这个结果对把 LLM 当事实来源的人是个警钟。模型的训练目标是生成连贯合理的文本,不是核实真伪,它们在事实问题上的可靠度取决于训练数据的覆盖和清洁度,而现实争议恰恰是数据最浑浊的地方。实际可行的用法是让模型做检索和归纳的助手,给出处、列证据,由人来下结论。任何跳过出处直接要答案的用法,在争议性话题上都等于掷骰子。

via: Hacker News