AI画得太逼真,以至于连AI自己都认不出来了

作者: 沈知涵

来源: 果壳

发布日期: 2023-03-31 16:00:45

AI生成的内容越来越逼真,以至于连AI自己都难以识别。这不仅引发了公众的恐慌,也对学术界和教育界产生了影响。现有的AI识别工具在准确性上存在很大问题,尤其是在处理短文本和多样化内容时。此外,AI生成的图像也难以被准确识别,尽管有些痕迹可以被专业人士发现。随着AI技术的进步,人类和AI之间的界限变得越来越模糊,这不仅影响了艺术创作,也引发了社会对真实性和原创性的讨论。

“特朗普被逮捕了!!!”消息首先在Twitter传开,热度蹭蹭地窜升。“始作俑者”Eliot Higgins马上出来澄清:“别误会了,照片是我用Midjourney生成的,为此还花钱买了V5版本。

”但来不及了,这一系列照片(因为Higgins还连载了“入狱”后续)在Instagram、TikTok上“疯传”,全民狂欢的劲头就像一起经历真实的政治事件——川普“入狱”、“越狱”、“出狱”、“再就业”等等层出不穷。

由AI生成的内容“谎骗”过人眼,起初人们还挺兴奋,但问题是,这种兴奋在最近发生得过于频繁,它开始转变为一种惶恐。图像之外,还有文字——包括Science、Nature等在内的学术期刊对于ChatGPT的使用明令限制,不许将其列为论文合著者;一些高校甚至中学老师开始频繁抱怨,学生用AI生成的作业越来越多,也越来越难以甄别。

那么,在目前这个阶段,我们还剩下哪些办法能识别出“AI出品”呢?让AI指认AI:26%,我说的是准确率。如果你也一瞬间将“川普入狱图”信以为真,或根本读不出一篇中规中矩的新闻稿究竟是否出自人类之手,别懊恼!这确实不太容易。

就连AI自己,对于什么内容是自己生成的,也不太确信。

OpenAI做了一个分类模型(ai text classifier)检测器,在英文文本的评估中,正确识别了26%的AI生成文本,错误地将9%的人类文本标记为AI文本。起初我对此结果存疑。直到我让Bing以“春”、“夏”、”秋”、“冬”为话题分别写四首诗,并交给OpenAI的检测器来判断。

不幸的是,它给出的结果,分别是“文本非常不可能是AI写的”,“不可能是AI写的”,“不可能是AI写的”,“不可能是AI写的”——正确率为零。

OpenAI自己的AI识别工具,以及市面上另一家originality.ai做的检测器本质上都是“语言模型”——就跟ChatGPT一样。为了提升准确性,这类工具在生成训练数据中,要尽可能生成多样化的数据(用不同生成方式,和用多个生成模型),以便模型更好地知道AI生成的文本类型。

利用现有的人类创作的文本数据对模型进行微调,使AI生成的文本更加自然(也就是更像“人话”),以便模型能学到,即便AI生成的文本越来越有“迷惑性”,但跟人类之间那个微妙的边界仍然存在——这听起来更像AI假“识别”之名行模仿之事。但至少目前,跨没跨过那个“边界”总有一些标准。

GPTZero(也是一款AI“杀手”)在辨别一段输入是不是由AI生成的,它借助两个文本属性,困惑性(perplexity)、突发性(burstiness)。“困惑性”是指一段文本的复杂性和随机性。模型接受生成的文本数据集训练,所以机器下一个词接什么,下一句话说什么是可预测性更高的。然而人类遣词造句的随机性就高了,说出的话更加让机器意想不到。“突发性”则指句子之间的变化程度。

人类写作,有更多的句子结构变化,长、短句,复杂、简洁句交替使用。机器生成的句子往往更加统一。

但模型的漏洞很容易钻。AI生成的内容与日俱增,对一份全然不同于,且从未在训练集中出现的内容,AI极有可能预测错误;短文本对于模型来说简直是灾难,因为文本越短,呈现的变化可能性越少,OpenAI要求输入的文本至少有1000个字符。

那么AI“鉴”画的成绩有好点吗?很遗憾,也没有。一位开发者Matthew Maybe在开发者社区上传了自己的image detector。实际上,他就是训练了一个图片二分类模型。训练数据全部来自Reddit,真实图片来自r/art等版块,AI图片来自r/midjourney等版块,并“手动”为这些图片打了标签。

使用评价褒贬不一,Reddit用户说,说不好是不是靠猜的。因为他用户训练的数据样本太少,只有几千个。另外他“故意”不去解决,由计算机处理过(可能指PS等软件),而非AI生图所造成的判断结果“假阳性”问题。“与其做一个完美模型,我更想对艺术家负责。”以至于,模型在判断是不是“真”图上,给出结果也有保守“倾向”。

研究者们认为,即便一张图片肉眼看起来“完美”,由于生成过程会留下痕迹,让它仍能被识别出来是AI画的。这些生成痕迹,与摄像头拍摄留下的“标识”不同。而且每个生成算法留下各自独特痕迹,以便溯源。过往在基于GANs(生成式对抗网络)的deepfakes“换脸术”中,通过找生成痕迹的检测方法被证明是有效的。

于是上述研究者们想,类似方法能否用于这段时间发展起来的AI生图所基于的扩散模型上。他们发现,扩散模型留下的痕迹,普遍不如GANs明显。例如Stable Diffusion的痕迹虽弱,但尚可用来检测,DALL-E 2几乎不可见。基于模型之间的差距,以及对现有detectors做了效果评估之后,他们得出结论,现有detectors最大问题是“通用性”。

引入一个扩散模型生成的图片用以训练,可以帮助检测出类似模型生成的图片,但对其他的检测效果就不好。一个模型是为GANs训练的,它很难检测出基于扩散模型的生成图片。以及当图片因为在社交媒体上经常被压缩、裁剪,从而质量有所下降,detectors识别起来就有困难。

但今天的AI画图,不见得找不出一点错。有的时候画面缺少3D建模;在阴影和反射画面中不对称。肉眼挑错的方法虽不是长久之计,但至少是目前最可行的办法。比如在特朗普被捕的这些照片中。打眼一看画面主体好像没问题,但仔细一看,画面人物越多,“诡异”的事情越多。

比如“多腿”特朗普;特朗普肤色不自然,面部呈现一种“蜡质”的不真实;以及找不到主人的手;警察的帽子和徽章都模糊处理,细看甚至不尽相同;当AI表现人物表情,往往以一种比较夸张的方式呈现。(有的时候就连微笑所带来的皮肤褶皱都画得非常明显);以及AI似乎还没学会“眼神追踪”,一群追赶特朗普的人,他们看向的方向都不相同。

而在普通人眼中认为完美的AI艺术,也在经验老道的艺术家那里形成了一套“经验主义”。一名3D角色艺术家(Dan Eder)说,“如果想试图辨认一张AI生成图像,应该考虑作品的整体设计。假设AI画了一张“幻想战士盔甲”,乍一看,很漂亮,细节也很丰富,但很多时候这背后没有“逻辑”。逻辑是指,当一位人类艺术家为角色创作盔甲,他得考虑到,这件盔甲的功能性,肢体位置,要能展开多少。”

另一位艺术家则说,AI生成的图像缺乏“意向性”(指人类的每一个觉知都是指向外部事物),AI没什么经验基础,能理解人、树、手……是什么。“所有这些都是刚被扔进画面里的,为了让你的提示词和数据点对应起来。这是它能呈现的最接近的东西,但不知道为什么。”即便艺术家们声称:AI做图缺少一种清晰的视觉叙事。但这种说法也被认为是一种“事后诸葛亮”。

去年年底,一位数字艺术家Ben Moran发推,抱怨自己的作品被r/Art版块审核员“禁了”,原因是违法了“no AI art”规则。这幅“战区缪斯”(a muse in warzone)风格的确类似很多AI生成艺术(在当时)——文艺复兴绘画风格,穿着战士服的女性。Moran说,“不信,我交出PSD文件。”审核员却说,“不必!如果你是一个‘正经儿’艺术家,你得画些其他风格。

口说无凭,因为不会有再相信,AI没‘替’你画画。”

AI学习网络上大量画作,从而形成自己“倾向性”的风格,这本不是人类的错。AI生成内容逼近肉眼可辨的真实,连内容创作“金字塔”尖的艺术家们也需要自证。讽刺的是像上述例子,为了自证,人类需要主动“避开”AI所“擅长”的东西了。

UUID: 043336a6-998c-4ec4-afc5-9472bf4bde1d

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2023/果壳_2023-03-31_AI画得太逼真,以至于连AI自己都认不出来了.txt

是否为广告: 否

处理费用: 0.0088 元