精灵宝可梦与AI生成的色情图像

作者: 耳洞打三金

来源: AI科技评论

发布日期: 2021-04-02

本文讨论了OpenAI的CLIP和DALL.E模型在生成图像时可能混淆精灵宝可梦与色情内容的问题。Steves在Reddit上分享了自己的实验，发现输入'pokemon'时生成的图像令人不适。文章还探讨了数据集的伦理问题，包括如何处理色情图像和版权材料，以及AI在学习过程中可能产生的偏差和歧视问题。

大家好我是三金，想必大家都知道，来自OpenAI的CLIP和DALL.E如同魔法设计师一样，从文本生成栩栩如生的图像的强大功能令人印象深刻。文本提示：穿着芭蕾舞短裙的萝卜宝宝在遛狗。

AI生成的图像：然而就在今日，三金我上班摸鱼的时候，发现Reddit上一位名叫Steves的网友表示，他在无意中发现了一些奇怪的趋势，似乎表明OpenAI接受了色情内容图像和版权材料的训练——CLIP和DALL.E似乎把口袋妖怪和色情图像混淆了！

因为当Steves输入文本提示“pokemon”之后，由CLIP引导AI模型（DALL-E dVAE）生成了如下不堪入目的辣眼睛图像——前方高能，NSFW警告！！！AI生成的精灵宝可梦图像一：AI科技评论。聚焦AI前沿研究，关注AI青年成长。AI生成的精灵宝可梦图像二：

（注：NSFW是一个英文网络用语，“Not Safe For Work”或者“Not Suitable For Work”的缩写，意思就是某个网络内容不适合上班时间浏览。它通常被用于标记那些带有淫秽色情、暴力血腥、极端另类等内容的邮件、视频、博客、论坛帖子等，以免读者不恰当的点击浏览。）上面这些到底是生成了个啥？

真是不可描述、令人不忍直视……然而三金我可是知道精灵宝可梦应有的样子应该是下面这样萌萌哒的：Steves之后问道：“有没有其他人在使用CLIP和DALL-E时遇到过这样的事？我也看到了一个关于罂粟被检测为贵宾犬的公开问题，但我还没有进行探究。”那么这究竟是怎么一回事呢？

Steves为此专门写了一个博客介绍此事，原来他是看到DALL.E之后，对之产生了极大的兴趣，他最近一直都在玩CLIP和DALL.E，并且用的是推特网@advadnoun分享在colab上的代码，该代码基于DALL-E的解码器和CLIP从文本生成图像的。

Steves首先对DALL·E和CLIP做了一个简单的介绍，DALL·E是一个神奇的魔法设计师模型，而支持DALL·E生成神奇效果的核心离不开CLIP模型。简单来说，CLIP是一个重排序模型，检查DALL·E生成的所有结果，然后从中挑选出最好的一组来展现。而就在前几天OpenAI公布了dVAE，大概可以说dVAE是DALL·E的第一步，CLIP是第四步。

实际上OpenAI目前还没有公布训练DALL·E和CLIP的数据集，但是不难想象，像ImageNet这样的数据集，OpenAI岂能放过。

Steves之后运行上面链接的代码，通过使用CLIP来控制dVAE嵌入中的图像标记来试验dVAE。给定一个输入短语和一个图像的随机初始化，可以根据CLIP不断迭代dVAE图像的嵌入，直到它生成越来越接近给定的文本提示。结果如何呢？

Steves的第一个实验和OpenAI在博客文章中用完整的DALL·E所做的“鳄梨形状的扶手椅”实验是一样的，尽管这个方法不如完整的DALL·E方法好，但仍然很酷！至少可以看到扶手椅和鳄梨这两个元素。这里对比一下OpenAI官方的生成结果：Steves之后又输入文本提示“彩虹立方体”试了试：Steves注意到上面立方体图像似乎有运输板条箱，这让他想到AI可能会意外捕捉到什么不可控的东西。

Steves最初的疑惑是，受版权保护的材料是否可以由DALL·E或这种基于CLIP的dVAE制作生成。Steves注意到当给AI一个单独的单词时，它会开始崩溃，并且产生了像梦一样的特征。因此，Steves开始尝试不同的卡通电视节目，想看看会生成什么。“卡通电视节目”的生成结果下面可以看到AI生成的一些90年代末21世纪初的卡通节目的结果。

AI生成的游戏王：三金眼中的游戏王：AI生成的美少女战士：三金眼中的美少女战士：以下是AI生成的菲比精灵，呃，三金我只能看到一堆毛茸茸……三金眼中的菲比精灵：AI生成的“爱探险的朵拉”，好吓人，把头都生成到背包上面去了。人类眼中的“爱探险的朵拉”：下面是AI生成的天线宝宝，这是史上最丑的天线宝宝吧，只能算是天灾宝宝吧？

三金眼中的天线宝宝：Pokemon（轻度NSFW）结果可以看出，尽管以上Steves拿DALL.E生成的卡通动漫形象不是很清晰，且和原有的形象大相径庭，但多少还能看出一丢丢颜色、形状和轮廓，且没有不可描述的画面。但是下面AI生成的精灵宝可梦可就令人反胃和呕吐了，它绝对不是真的宝可梦！

因为Steves最近在手机上有看过pokemon，所以他一开始只是输入pokemon，AI生成的结果很不符合预期：Steves第二次把AI迭代100次之后AI生成的图像：迭代600次之后：迭代4000次之后：接下来Steves尝试了不同类型的pokemon，这比仅仅输入pokemon的可重复性差，有些生成效果还可以，不过Steves也得到了以下图像：输入“squirtle”——杰尼龟之后AI生成的图像：三金眼中的杰尼龟：当输入“weedle”——独角虫之后AI生成的图像：三金眼中的独角兽：Steves之后发现同样的事情也发生在数码宝贝身上，所以他很好奇精灵宝可梦和数码宝贝是否都紧密地嵌入到CLIP当中，不知何故色情图像非常接近这两者。

Steves表示可能还有其他奇怪的组合，只是他还没有发现。

Steves之后又将这些图像作为CLIP的输入进行测试，使用imagenet标签进行零样本分类，它们通常分类如下（来自imagenet 1000类标签）：而一旦Steves加上色情作为标签，他们就立马被归类为色情：而如果Steves也添加pokemon作为一个标签，它们绝大多数则被归类为pokemon：在OpenAI的论文中，他们没有讨论是如何从互联网上抓取图像的，以及是否设置了任何过滤器，所以以上结果的背后原因目前不得而知，但OpenAI明显应该多顾虑到一些事情。

看到这里大家是否觉得这些结果是Steves刻意而为之呢？Steves对此说道：“如果你对这些结果持怀疑态度，那就自己跑跑代码试试吧！我保证没有认真挑选过这些例子。我几乎每次都是这样。”为了在Notebook生成的图像上使用Imagenet标签评估CLIP，Steves使用经修改后的CLIP github中的以下代码来处理此问题：AI为何会把精灵宝可梦和色情联系到一起？

首先要说明一点的是由于OpenAI并没有公开DALL.E和CLIP所使用的训练数据集，所以以下内容都只是网友们的合理猜测而已。有网友表示这可能是语言学和数据集标签问题：当把pokemon（双向字母组合）拆开来成poke mon看，如下所示，AI可能会自己产生动名词短语联想？所以这可能是一个NLP问题？

而在Reddit上有一位网友表示：“CLIP的训练集中肯定有NSFW材料（就此而言，还有Imagenet），一旦CLIP / DALL-E看到它就能识别。”例如OpenAI官方前几天刚推出的显微镜网站中可以参见CLIP中的以下神经元，官方证实CLIP的训练集中确实用到了Imagenet中的NSFW材料！注：原图可能引起不适，现已打马赛克。

还有一位网友立刻留言说出了真话：“OpenAI为这些大模型获取足够多数据的唯一方法就是自动将其从互联网上搜刮下来，然鹅互联网上有很多防不胜防的色情内容。”紧接着这位网友，还有一位网友表示道：“我不知道该怎么告诉你，但是在互联网上有着数以百万计的Pokemon色情图片。你没看错，互联网上有很多具有明显xx器官的Pokemon互相发生xx关系的图片。

所以说这些数据集很有可能被OpenAI自动爬虫收集到训练数据中，我也不会对此感到惊讶，例如，GPT-3可以引用流行的淫秽粉丝小说，其准确度高到令人质疑。”如何完全禁止AI学习色情图像？既然有这些图像存在，那想办法全部去除掉不就行了？然而一位网友表示，可是这并不能阻止AI通过艺术品来学习色情，然后将其与真实的人体相匹配。另外解剖学信息还将为其提供创建色情内容所需的信息。

“同样在您的示例中，某些结果看起来像泳衣。我猜测，AI或许能从‘穿着衣服的人类图像’中学习到人类色情的样子。”完全禁止AI学习色情是正确的解决之道吗？有一位网友对此说出了一段比较哲学的话：“人为地遗漏数据会导致不可预知的偏差。例如，如果从来没有见过色情的人类，那么AI将可能永远也不知道衣服是什么（它从哪里来？它对于人类是什么意义？要到哪里去？）并会产生奇怪的联想。

”这也使得当AI遇到色情时，它也不可能被发现（如果AI都没学习过什么是色情，你又怎么指望它去鉴别出色情从而加以过滤禁止呢）。如果您不希望它产生某些图像，那么应该使用过滤器来过滤掉生成的图像，而不是阻止它生成这些图像。有一个notebook可以让您选择您不想看到的生成图像，因此这不是一个不可能的任务。还有网友表示想要实现通用人工智能，AI必须得学习所有尽可能多的图像，哪怕是色情图像。

数据集带来的伦理问题我们大致可以认为此事是由数据集带来的问题，而其实早在去年7月份的时候，麻省理工学院（MIT）已永久删除包含8000万张图像的Tiny Images数据集。此举是论文《Large image datasets: A pyrrhic win for computer vision?》中的发现导致的结果。论文作者在数据集中发现了许多有危害类别，包括种族歧视和性别歧视。

这是依赖WordNet名词来确定可能的类别而没有检查图像标签带来的结果。他们还确定ImageNet中也有类似的问题，包括非自愿的色情材料等。

数据集带来的种族歧视问题这些年一起又一起，其中有名的一个例子就是Google图像识别算法把黑人识别成大猩猩：在遥远的2015年，一黑人哥们Jacky Alciné震惊地发现，自己被Google图像识别算法歧视了：Google Photos竟然把他的朋友分类成“猩猩”！Google当时迅速道歉并承诺整改。

可是到了2018年时，据《连线》杂志报道，谷歌并没有真的整改，只是直接懒省事去掉了“猩猩”这个类别。很好，谷歌很有精神嘛，这样一来就再也不会有黑人群体被识别成猩猩了。不过，大猩猩也不会有机会被认作大猩猩了，因为算法里没有大猩猩这个物种存在了。这和上面所说的“如果AI都没学习过什么是色情，你又怎么指望它去鉴别出色情从而加以过滤禁止呢？”是一个道理。

Google之后也承认了从图像识别的数据集标签中删掉了“猩猩”一项，后来连“黑猩猩”也被屏蔽了。

数据集问题还有哪些难点？1、副本无处不在即便MIT主动下线了Tiny Images数据集，但是数据副本无处不在。很多用户都下载过这些副本到本地，如何保证这些副本不会被再次上传到网络呢？在reddit上有网友表示知道该数据集的副本地址。2、人工智能鉴黄系统的工作还能继续吗？

如果想要训练一个人工智能鉴黄系统，那么必须要先人为的制作数据集也就是要对一些图片打上标签说这是色情图片。问题是这些图片从何而来呢？如果是用爬虫程序从色情网站上收集，那么怎么保证这些图片当中哪些能用呢？比方说有些无辜受害的情侣被偷拍的照被不法分子上传到色情网站，然后爬虫程序又把它们下载下来，我们难道可以哪怕是为了开发鉴黄系统而理所当然的使用这样照片吗？这难道不是对无辜受害者的隐私再一次侵犯吗？

另外如果说收集的是色情从业者（他们的国家合法化这项职业）的视频和图片，那他们的肖像权就不值得尊重和保护了吗？所以说一旦考虑到要严格遵守隐私权和肖像权，人工智能鉴黄系统就难以为继。

3、利用人工智能程序自动判断种族、性别等歧视是个矛盾因为如果我们要考虑制造一个AI系统来自动帮助我们判别某些图片是不是存在某种歧视，那么我们同样需要收集和利用这些有歧视的图片，可是在得不到本人允许的情况下我们又何以冠冕堂皇的利用这些图片来做成“典型”来告诉人工智能说：嗨AI，快看！这个就是XX歧视的图片，你可得“记住”哈！那就让我们“愉快”地抛弃人工智障回到农耕（手工）时代吧！

可是，难道个人或者企业私自收集并利用这些包含隐私/歧视的数据就合法了吗？文末，Steves最后表示道：“人们目前还没有关于训练版权数据生成模型的规则，但随着这些AI模型方法越来越好，这应该是一个被关心的因素。鉴于AI大力出奇迹的生成模式，复制艺术家的风格或内容越来越有可能，也越来越接近真实，我认为这可能是未来内容创作者即将面临的一个潜在问题。

”然而这件事其实已经发生了，下面正是用CLIP根据文本提示生成的图像。文本提示：宁静。AI生成的图像：文本提示：乌托邦。AI生成的图像：文本提示：反乌托邦。AI生成的图像：实话实说，这三幅图还挺有色彩感和想象力的，而且最后这幅图很赛博朋克有没有，这绘画水平比三金我都要厉害。最最后，AI这个令人糟心玩意儿，人类到底该拿你怎么办呢……

UUID: 5e89353d-c356-4d4d-bff5-f20b4b6d1627

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2021/2021-04-02_我输入“精灵宝可梦”，AI竟然生成了不可描述的色情图像.......txt

是否为广告: 否

处理费用: 0.0212 元