重磅:⼤模型的谎⾔如何“破”?⽜津团队提出新⽅法,⽆需⼈⼯监督或特定领域知识

作者: 学术头条

来源: Nature

发布日期: 2024-06-19 23:06:58

⽜津⼤学团队提出⼀种新⽅法,能够量化⼤语⾔模型(LLM)产⽣幻觉的程度,从⽽提⾼其问答的准确性。该⽅法通过语义熵的⽅式,⽆需⼈⼯监督或特定领域知识,能在多个领域识别出“编造”内容,为检测LLM幻觉提供了⼀种通⽤的⽅法。

世界卫⽣组织(WHO)的⼈⼯智能健康资源助⼿ SARAH 列出了旧⾦⼭本不存在的诊所的虚假名称和地址。Meta公司“短命”的科学聊天机器⼈ Galactica 凭空捏造学术论⽂,还⽣成关于太空熊历史的维基⽂章。今年2⽉,加拿⼤航空被命令遵守其客户服务聊天机器⼈捏造的退款政策。去年,⼀名律师因提交充满虚假司法意⻅和法律引⽤的法庭⽂件⽽被罚款,这些⽂件都是由 ChatGPT 编造的。

如今,⼤语⾔模型(LLM)胡编乱造的例⼦已屡⻅不鲜,但问题在于,它们⾮常擅⻓⼀本正经地胡说⼋道,编造的内容⼤部分看起来都像是真的,让⼈难辨真假。在某些情况下,可以当个乐⼦⼀笑⽽过,但是⼀旦涉及到法律、医学等专业领域,就可能会产⽣⾮常严重的后果。如何有效、快速地检测⼤模型的幻觉(hallucination),已成为当前国内外科技公司和科研机构竞相关注的热⻔研究⽅向。

如今,⽜津⼤学团队提出的⼀种新⽅法便能够帮助我们快速检测⼤模型的幻觉——他们尝试量化⼀个LLM产⽣幻觉的程度,从⽽判断⽣成的内容有多忠于提供的源内容,从⽽提⾼其问答的准确性。研究团队表示,他们的⽅法能在LLM⽣成的个⼈简介,以及关于琐事、常识和⽣命科学这类话题的回答中识别出“编造”(confabulation)。

该研究意义重⼤,因为它为检测LLM幻觉提供了⼀种通⽤的⽅法,⽆需⼈⼯监督或特定领域的知识。这有助于⽤户了解LLM的局限性,并推动其在各个领域的应⽤。相关研究论⽂以“Detecting Hallucinations in Large Language Models Using Semantic Entropy”为题,已发表在权威科学期刊 Nature 上。

在⼀篇同时发表的“新闻与观点”⽂章中,皇家墨尔本理⼯⼤学计算机技术学院院⻓ Karin Verspoor 教授指出,该任务由⼀个LLM完成,并通过第三个LLM进⾏评价,等于在“以毒攻毒”。但她也写道,“⽤⼀个LLM评估⼀种基于LLM的⽅法似乎是在循环论证,⽽且可能有偏差。”不过,作者指出他们的⽅法有望帮助⽤户理解在哪些情况下使⽤LLM的回答需要注意,也意味着可以提⾼LLM在更多应⽤场景中的可信度。

如何量化LLM的幻觉程度?我们先来了解⼀下,⼤模型的幻觉是如何产⽣的。LLM的设计初衷是⽣成新内容。当你问聊天机器⼈⼀些问题时,它的回答并不是全部从数据库中查找现成的信息,也需要通过⼤量数字计算⽣成。这些模型通过预测句⼦中的下⼀个词来⽣成⽂本。模型内部有成千上亿个数字,就像⼀个巨⼤的电⼦表格,记录了词语之间的出现概率。模型训练过程中不断调整这些数值,使得它的预测符合互联⽹海量⽂本中的语⾔模式。

因此,⼤语⾔模型实际上是根据统计概率⽣成⽂本的“统计⽼⻁机”,摇杆⼀动,⼀个词便出现了。现有的检测 LLM 幻觉的⽅法⼤多依赖于监督学习,需要⼤量的标注数据,且难以泛化到新的领域。在这项研究中,研究团队使⽤了语义熵的⽅法,该⽅法⽆需标注数据,且在多个数据集和任务上表现出⾊。

语义熵(semantic entropy)是⼀种衡量语⾔模型⽣成的⽂本中潜在语义不确定性的⽅法,通过考虑词语和句⼦在不同上下⽂中的意义变化来评估模型预测的可靠性。该⽅法能检测“编造”(confabulation)——这是“幻觉”的⼀个⼦类别,特指不准确和随意的内容,常出现在LLM缺乏某类知识的情况下。这种⽅法考虑了语⾔的微妙差别,以及回答如何能以不同的⽅式表达,从⽽拥有不同的含义。

图|语义熵与虚构内容检测简述如上图所示,传统的基于熵的不确定性度量在精确答案的识别上存在局限,例如,它将“巴黎”、“这是巴黎”和“法国的⾸都巴黎”视为不同答案。然⽽,在涉及语⾔任务时,这些答案虽表述不同但意义相同,这样的处理⽅式显然不适⽤。语义熵⽅法则在计算熵之前,先将具有相同意义的答案进⾏聚类。低语义熵意味着⼤语⾔模型对其内容含义具有很⾼的确定性。另外,语义熵⽅法还能有效检测⻓段落中的虚构内容。

研究团队⾸先将⽣成的⻓答案分解为若⼲⼩事实单元。随后,针对每个⼩事实,LLM 会⽣成⼀系列可能与之相关的问题。然后,原LLM会为这些问题提供M个潜在答案。接着,研究团队计算这些问题答案的语义熵,包括原始的⼩事实本身。⾼平均语义熵表明与该⼩事实相关的问题可能存在虚构成分。在这⾥,由于即使⽤词差异显著,但⽣成的答案通常传达相同意义,语义熵成功将事实1分类为⾮虚构内容,⽽传统的熵⽅法则可能忽略这⼀点。

研究团队主要在以下两个⽅⾯对⽐了语义熵与其他检测⽅式的差别。1. 检测问答和数学问题中的虚构内容图|检测句⼦⻓度⽣成中的虚构内容。从上图中可以看出,语义熵优于所有基线⽅法。在 AUROC 和 AURAC 两个指标上,语义熵均展现了更好的性能,这表明其能够更准确地预测 LLM 错误,并提⾼模型拒绝回答问题时的准确率。2. 检测传记中的虚构内容图|检测段落⻓度传记中的 GPT-4 虚构内容。

如上图所示,语义熵估计器的离散变体在 AUROC 和 AURAC 指标(在 y 轴上得分)上均优于基线⽅法。AUROC 和 AURAC 都明显⾼于两个基线。在回答超过 80% 的问题时,语义熵的准确性更⾼。只有当拒绝最有可能是虚构内容的前 20% 答案时,P(True) 基线的剩余答案准确性才好于语义熵。

不⾜与展望研究团队提出的概率⽅法充分考虑了语义等价性,成功识别出⼀类关键的幻觉现象——即由于 LLM 知识缺乏⽽产⽣的幻觉。这类幻觉构成了当前众多失败案例的核⼼,且即便模型能⼒持续增强,由于⼈类⽆法全⾯监督所有情境和案例,这类问题仍将持续存在。虚构内容在问答领域中尤为突出,但同样在其他领域也有所体现。

值得注意的是,该研究使⽤的语义熵⽅法⽆需依赖特定的领域知识,预示着在抽象总结等更多应⽤场景中也能取得类似的进展。此外,将该⽅法扩展到其他输⼊变体,如重述或反事实情景,不仅为交叉检查提供了可能,还通过辩论的形式实现了可扩展的监督。这表明该⽅法具有⼴泛的适⽤性和灵活性。语义熵在检测错误⽅⾯的成功,进⼀步验证了LLM在“知道⾃⼰不知道什么”⽅⾯的潜⼒,实际上可能⽐先前研究所揭示的更为出⾊。

然⽽,语义熵⽅法主要针对由 LLM 知识不⾜导致的幻觉,⽐如⽆中⽣有或张冠李戴,对于其他类型的幻觉,⽐如由训练数据错误或模型设计缺陷导致的幻觉,可能效果不佳。此外,语义聚类过程依赖于⾃然语⾔推理⼯具,其准确性也会影响语义熵的估计。未来,研究⼈员希望进⼀步探索语义熵⽅法在更多领域的应⽤,并与其他⽅法相结合,从⽽提⾼LLM的可靠性和可信度。

例如,可以研究如何将语义熵⽅法与其他技术,⽐如与对抗性训练和强化学习相结合,从⽽进⼀步提⾼ LLM 的性能。此外,他们还将探索如何将语义熵⽅法与其他指标相结合,从⽽更全⾯地评估 LLM 的可信度。但需要我们意识到的是,只要 LLM 是基于概率的,其⽣成的内容中就会有⼀定的随机性。投掷100个骰⼦,你会得到⼀个模式,再投⼀次,你会得到另⼀个模式。

即使这些骰⼦像 LLM ⼀样被加权来更频繁地⽣成某些模式,每次得到的结果仍然不会完全相同。即使每千次或每⼗万次中只有⼀次错误,当你考虑到这种技术每天被使⽤的次数时,错误的数量也会相当多。这些模型越准确,我们就越容易放松警惕。对于⼤模型的幻觉,你怎么看?

UUID: 13353217-b534-49c4-a72b-47208c36b16a

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2024年/学术头条_2024-06-19_Nature重磅:大模型的谎言如何“破”?牛津团队提出新方法,无需人工监督或特定领域知识.txt

是否为广告: 否

处理费用: 0.0090 元