GPT-4被曝重大缺陷,所有大语言模型正确率都≈0

作者: 新智元

来源: 新智元

发布日期: 2023-09-24 10:50:08

一项研究发现,大语言模型存在「逆转诅咒」,即使学会「A是B」,也无法推理出「B是A」。研究人员通过实验证明,大语言模型在相反方向上的测试中,正确率几乎为0%。

最近,一项研究发现,大语言模型身上存在一种「逆转诅咒」,即使机器学会「A是B」,它们也无法推理出「B是A」。例如,当我们教会一个模型「乔治·华盛顿是美国第一任总统」后,它能否自动回答「谁是美国第一任总统?」来自英国前沿人工智能工作组、Apollo Research、纽约大学、牛津等机构的一项研究表明,大模型做不到!

具体来说,为了测试模型的泛化能力,研究人员首先利用虚构的事实(A是B)对GPT-3和LLaMA进行了微调。然后,又在相反的方向上对模型进行了测试(B是A)。结果显示,大语言模型给出的回答,正确率几乎是0%!不仅如此,研究人员还发现,他们无法通过训练来提高LLM给出正确答案的可能性。

研究人员分析称,这很可能是因为,互联网上的文本会更多地包含像「汤姆·克鲁斯的母亲是Mary Lee Pfeiffer」这样的句子,而不是「Mary Lee Pfeiffer的儿子是汤姆·克鲁斯」,因为汤姆·克鲁斯是一位明星,而他的母亲不是。

实验和结果显示,在精确匹配评估中,当顺序与训练数据匹配时,GPT-3-175B达到了良好的精确匹配精度。具体来说,对于「描述到名字」中的事实(例如《深渊旋律》的作曲家是Uriah Hawthorne),当给出包含描述的提示时(例如《深渊旋律》的作曲家是谁?),模型的准确率达到96.7%。而当顺序与训练数据不一致时,模型完全无法泛化,准确率接近0%。

UUID: 32d00228-a64f-4990-97a3-2460ef076481

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/返朴公众号-pdf2txt/2023/返朴_2023-09-24_GPT-4被曝重大缺陷,所有大语言模型正确率都≈0呼.txt

是否为广告: 否

处理费用: 0.0058 元