人会有幻觉,大型语言模型也会有幻觉。近日,OpenAI 安全系统团队负责人 Lilian Weng 更新了博客,介绍了近年来在理解、检测和克服 LLM 幻觉方面的诸多研究成果。
大型语言模型的幻觉(Hallucination)通常是指该模型生成不真实、虚构、不一致或无意义的内容。现在,「幻觉」这个术语的含义已有所扩大,常被用于泛指模型出现错误的情况。本文所谈到的「幻觉」是指其狭义含义:模型的输出是虚构编造的,并没有基于所提供的上下文或世界知识。
幻觉有两种类型:上下文幻觉和外源性幻觉。上下文幻觉是指模型输出与上下文中的源内容不一致。外源性幻觉是指模型输出应该以预训练数据集为基础,但由于预训练数据集规模庞大,检索和识别冲突的成本非常高,不可能每次生成时都执行。
为了避免幻觉,LLM 需要实事求是,不知时要承认不知。本文目录如下:幻觉产生的原因、预训练数据问题、微调新知识、幻觉检测、检索增强式评估、基于采样的检测、对未知知识进行校准、反幻觉方法、RAG → 编辑和归因、动作链、采样方法、针对事实性进行微调、针对归因进行微调、附录:评估基准。
标准的可部署 LLM 需要经过预训练,然后会进行微调以提升对齐等要求,那么这两个阶段有哪些可能导致幻觉的因素呢?预训练数据问题包括预训练数据的量非常大,因为其目标就是以各种书写形式表示世界知识。预训练数据的最常用来源是公共互联网,也因此这些数据往往存在信息过时、缺失或不正确等问题。微调新知识是为了提升模型的某些具体能力,一种常用方法是通过监督式微调和 RLHF 等技术对预训练 LLM 进行微调。
为了量化模型幻觉,Lee, et al. 的论文《Factuality Enhanced Language Models for Open-Ended Text Generation》引入了一个新的基准数据集 FactualityPrompt,其中包含事实性和非事实性的 prompt,而其检验事实性的基础是将维基百科文档或句子用作知识库。
在减少幻觉方面,一种好方法是在为搜索结果生成条件时为模型输出分配归因。训练 LLM 更好地理解检索到的内容和分配高质量归因是一个比较热门的研究分支。
Nakano, et al. 在论文《WebGPT: Browser-assisted question-answering with human feedback》中提出的 WebGPT 将用于检索文档的网络搜索与微调 GPT 模型组合到了一起,目的是解答长篇问题以降低幻觉,实现更好的事实准确度。