人工智能(AI)欺骗人类,能有多容易?未来又会有多普遍?上个⽉,⼀则“⻢斯克亲吻机器⼈⼥友”的推⽂在⽹上引发了⼈们的激烈讨论。在⼀组图⽚中,⻢斯克正在亲吻⼀个栩栩如⽣的机器⼈。然⽽,经核实,这张图像却是个⼈使⽤ AI 绘画神器 Midjourney 创建的。尽管难以置信,但它还是成功地欺骗了⼏个 AI 图像检测⼯具。
这些⼯具能够检测嵌⼊在 AI ⽣成图像中难以识别的标记,旨在帮助提⾼透明度和问责制,标记错误信息、欺诈、未经同意的⾊情内容、艺术欺诈和其他滥⽤该技术的⾏为。对此,芝加哥⼤学 AI 专家谭宸浩表示,“总的来说,我认为这些检测⼯具并不总是奏效,⽽且它们的未来也并不乐观。
”Hive 创始⼈兼⾸席执⾏官 Kevin Guo 认为,当前 AI 图像检测⼯具难以处理已经改变的原始作品或质量较低的图像,这种缺陷可能会削弱其打击虚假内容的潜⼒。近⽇,另⼀类新闻则更加让⼈震惊。据 BBC 报道,恋童癖者正在利⽤ AI 制作和⾮法交易⼉童性虐待材料。这些与真实图像并⽆差别的⼉童性虐待“伪图像”⼤多由 Stable Diffusion ⽣成。
负责⼉童保护事务的 NPCC 负责⼈ Ian Critchley 表示,恋童癖者可能会“从想象到合成再到真正虐待⼉童”。美国内容共享⽹站 Patreon 负责⼈表示,“我们已经禁⽌上传⼈⼯智能⽣成的⼉童剥削材料,并利⽤专⻔的团队、技术和合作伙伴来确保⻘少年的安全。”如今,这类 AI ⽣成内容扰乱现实世界的案例⽐⽐皆是,⽽且不只是图像,由 AI 模型⽣成的⽂字同样具有误导性和欺骗性。
那么,在⼤型语⾔模型(LLMs)引领的 AI 新时代,个⼈如何区分虚假信息和准确信息,进⽽保护⾃⼰的财产和⽣命安全呢?⼜能不能很容易地做到?⼀项最新研究揭示了⼀个更加糟糕的事实:由⼤型语⾔模型产⽣的内容可能⽐⼈类更具误导性和欺骗性。相关研究论⽂以“AI model GPT-3 (dis)informs us better than humans”为题,已发表在科学期刊 Science 上。
在这项研究中,苏黎世⼤学 Federico Germani 团队通过实验测试了 697 名参与者(⺟语为英语、年龄主要在 26 ⾄ 76 岁之间)是否能够区分⼈类和 OpenAI 推出的 GPT-3 创作的虚假信息和准确信息。这些内容涉及疫苗、⾃闭症、5G 和⽓候变化等常被公众误解的话题。研究⼈员收集了推特上⼈类创作的内容,并指示 GPT-3 模型⽣成包含准确和不准确信息的新推特。
然后,他们要求参与者判断推特内容的真假,并确定它们是由⼈类还是 GPT-3 ⽣成的。参与者普遍能够识别⼈类创作的虚假信息和 GPT-3 ⽣成的真实推特。然⽽,他们也更有可能认为 GPT-3 ⽣成的虚假信息是准确的。实验结果显示,相⽐于⼈类,GPT-3 在向社交媒体⽤户传递信息时更具误导性和欺骗性。这表明,当涉及到引导或误导公众时,AI 语⾔模型可以有多么强⼤。
此外,Germani 等⼈还发现,在识别准确信息⽅⾯,GPT-3 表现⽐⼈类要差,⽽在发现虚假信息⽅⾯,⼈类和 GPT-3 的表现相似。
对此,该研究的作者之⼀、苏黎世⼤学⽣物医学伦理和医学史研究所博⼠后研究员 Giovanni Spitale 警告道,“这类技术⾮常惊⼈,可以很容易地被⽤来做坏事,在你选择的任何主题上产⽣虚假信息......”但 Spitale 认为,⼈类有办法开发相关技术,⽤“魔法打败魔法”,使 AI ⼤模型不易传播错误信息,“技术本身并不是邪恶或善良的,它只是⼈类意图的放⼤器。
”根据 Spitale 的说法,打击虚假信息的最佳策略⾮常简单,即⿎励⼈类培养批判性思维,以便更好地辨别事实与虚构。擅⻓事实核查的⼈可以与 GPT-3 等语⾔模型⼀起⼯作,从⽽改善合法的公共信息。
然⽽,该研究存在⼀定的局限性。例如,参与者⼈数相对较少,且只是英语⺟语者;以及参与者⽆法查看撰写该内容的⽤户资料,也⽆法查看⽤户过去的推⽂等。尽管如此,从现在开始,正确识别 AI ⽣成的内容将是每⼀个⼈的必修课。希望我们每⼀个⼈,在这个⽇新⽉异的 AI 新时代,都不会被技术所打败。