大语言模型(LLMs)因其生成错误或无意义输出的倾向而备受关注,这种现象通常被称为“幻觉”。尽管许多研究从用户角度分析了这些错误,但最近由以色列理工学院、谷歌研究院和苹果公司的研究人员进行的一项新研究,深入探讨了LLMs的内部工作机制,揭示了这些模型对真实性的理解比之前认为的要深刻得多。
幻觉的定义和范围
幻觉一词缺乏普遍接受的定义,涵盖了LLMs生成的各种错误,包括事实不准确、偏见、常识推理失败和其他现实世界错误。在这项研究中,研究人员采用了广泛的解释,将所有这些错误归类为幻觉。
研究方法
大多数先前的研究集中在分析LLMs的外部行为以及用户如何感知这些错误,但对模型内部如何编码和处理错误提供的见解有限。新研究采取了不同的方法,重点分析了“精确答案标记”,即如果修改这些响应标记,将改变答案正确性的标记。
实验设计
研究人员在涵盖各种任务的10个数据集上对Mistral 7B和Llama 2模型的四个变体进行了实验,任务包括问答、自然语言推理、数学问题解决和情感分析。他们允许模型生成不受限制的响应,以模拟现实世界的使用。
主要发现
- 真实性信息集中在精确答案标记中:
- 研究人员发现,真实性信息主要集中在精确答案标记中,这些模式在几乎所有数据集和模型中都是一致的,表明LLMs在文本生成过程中编码和处理真实性的一般机制。
- 训练探测分类器预测幻觉:
- 研究人员训练了分类器模型(称为“探测分类器”),以根据LLMs的内部激活预测与生成输出真实性相关的特征。他们在精确答案标记上训练分类器,显著提高了错误检测的准确性。
- 技能特定的真实性:
- 探测分类器不能跨不同任务泛化,但在需要类似技能的任务中表现出泛化能力。例如,它们可以在事实检索和常识推理任务中泛化,但不能在情感分析任务中泛化。
- 错误类型的预测:
- 进一步的实验表明,这些探测分类器不仅可以预测错误的存在,还可以预测模型可能犯的错误类型。这表明LLM表示包含了关于它们可能失败的具体方式的信息,可以用于开发有针对性的缓解策略。
- 内部激活与外部行为的不一致:
- 研究人员发现,模型的内部激活可能正确识别了正确答案,但最终生成的响应却是错误的。这表明仅依赖LLMs最终输出的当前评估方法可能无法准确反映其真实能力。
未来影响
该研究的发现可以帮助设计更好的幻觉缓解系统。然而,使用的技术需要访问LLMs的内部表示,这主要在开源模型中可行。尽管如此,这些发现对整个领域有更广泛的影响。从分析内部激活中获得的见解可以帮助开发更有效的错误检测和缓解技术。这项工作是更广泛研究领域的一部分,旨在更好地理解LLMs内部发生的事情以及每次推理步骤中发生的数十亿次激活。
领先的AI实验室如OpenAI、Anthropic和Google DeepMind一直在研究各种技术来解释语言模型的内部工作机制。这些研究共同有助于构建更可靠的系统。
“我们的发现表明,LLMs的内部表示提供了对其错误的深入见解,突显了模型内部过程与其外部输出之间的复杂联系,并希望为进一步改进错误检测和缓解铺平道路。”研究人员写道。