AI绘画的本质与挑战

“这图⼀眼就是AI！”那你能展开讲讲么？

互联⽹有⼀条经典的“第34号规则”（Rule 34）：如果⼀个东⻄存在，那么它必然会被⽤来搞⻩⾊。AI绘画就很好地说明了这⼀点——⽬前最流⾏的⼏个AI绘画分享⽹站，都有⾄少三分之⼀的内容是各种⻩图。但是这⾥出现了⼀个⼩⼩的问题：⼈们普遍觉得，这些图⾥的⼤多数，虽然⻩，但不“⾊”。是千篇⼀律的僵硬神⾊和动作？或许是扭曲不⾃然的姿态？

⼜或许是依旧容易画错的⼿指和奇怪的透视？是什么让⼈能够⼀眼分辨出某些图是AI画的？我们真的要乞灵于“灵性”“灵魂”这样的词语吗？

当我们能够理解，是什么让⼈能够判断出⼀张图是否是AI画的，我们就能够更好的理解AI绘画本身。

如今，我们都多少⼤致了解过AI绘画的原理：⾸先，我们要有⼀个训练数据集，这个数据集⾥包括⼀系列的图⽚，和与图⽚对应的、描述图⽚元素的⼀系列⽂本；把这些数据喂给AI，AI就能学会将这些⽂本和图⽚之间联系起来；专业的术语，就是将图⽚中的内容翻译成⼀个“⾼维的⽂本向量”；如果这种内容到向量之间的翻译⾜够合理，那么我们就可以将这个翻译机制，也就是“多层神经⽹络”反过来使⽤，通过⼀系列的⽂本提示词（prompts），将⽂本向量重新翻译回相应的画⾯。

如果我们将中间的diffusion model之类的技术细节省略，我们会发现⼀个⽬前AI绘图和⼈类绘画最基本的逻辑区别：AI绘画是从⽂字语⾔出发的；⽽⼈类的视觉艺术，是从视觉本身出发的。⼈类在画⼀幅画的时候，⾸先是从脑袋⾥想象出某个视觉形象，然后⼀步步细化，构成画⾯，这中间可以完全没有任何语⾔的参与；⽽AI绘画则要求你⾸先去总结出画⾯中的元素，形成⽂字，然后再通过⽂字反向去描述出画⾯。

从这个⻆度，我们可以察觉出它与本雅明所谓“机械复制时代的艺术”有着某种本质性的区别：视觉艺术，从本质上是不

可⾔说的，或者更准确的说，是在语⾔之外的；这点是因为⼈类⼤脑处理视觉图像与处理语⾔根本上不是同样的区域，我们看到⼀幅图像所激发起的感情，我们创作⼀幅图像所投⼊的感情，本质上都是语⾔之外的东⻄。⽽⽬前的AI绘画则实际上是我们要⽤语⾔去描述视觉，那么它注定只能传达出我们对于整个视觉世界中能够⽤语⾔描述的那⼀⼩部分。

所以，当我们在使⽤AI绘图的时候，我们给出的提示词，绝⼤多数情况下给出的是绘图中的“元素”；⽽不是绘图的“上下⽂”（context），或者说逻辑；因为⽬前的这套通过⽂本⽣成图⽚的AI算法本质上是⽆法理解逻辑的。图像中的逻辑也很难通过⽂字描述出来。最简单的例⼦，就是我们鉴别AI曾经常⽤的“⼿指法”（如今已改进许多）：AI可以很容易地画出⼀个美少⼥，但是很难把美少⼥的⼿指数量画对。

⽽⼿指数量的问题，实质上就是⼀个绘图逻辑问题：⼈类都知道⼈类每只⼿上都⻓着五根⼿指，但是AI是⽆法通过⽬前的这套⽂本到图形的关联算法⾥学到这个基本知识的。

⽽为什么AI⽆法理解绘图的逻辑？这就要涉及我们要说的⽬前AI⾯临的最基本的问题：世界模型。关于智慧的“模型”发明出“⼈⼯智能”的同时，⼈类科学家们需要回答⼀个同等重要的问题：什么是“智能”？

⽽随着⼈⼯智能/认知科学的进步和发展，我们现在对于“⼈类智能是如何运⾏的”，有了更清晰的认识：⼈类，或者准确的说已知所有⽣物智慧的运⾏基础，都依赖于⼀个“世界模型”——我们依赖于对世界的认识，反过来界定我们⾃身的存在。

我们与周遭的世界和环境，与其他⼈的接触，都是我们对于这个“世界模型”的调⽤和运⾏；如果没有这个世界模型，智能本身就不存在了。在认知科学⾥，这叫做“具身认知”：我们身体和外界的关系构成了我们“认知模型”⾥⾮常重要（甚⾄是最主要）的部分。⽽⼈类的抽象思维和语⾔（最关键的思考⼯具），则基本上完全依赖于对于这个物理世界的类⽐和模拟，这被称作“具身模拟”。

这种对于物理世界的认识和建模，则是⽬前⼈⼯智能开发⾥最⼤的障碍：如何让⼈⼯智能建⽴⼀个世界模型？让它能够理解它看到了什么，⽽不是作为⼀个单纯的统计分类机器？⾃动驾驶实际上就卡在这⾥：机器智能机械的分类它接受到的影像数据并且做相应的反应，⽽很难将这些数据统计和归纳，建⽴⼀个世界模型，所以⾃动驾驶才会出那么多的⽆穷⽆尽的corner case。

AI绘图与⼈类绘画根本差异的原因也就在此：绘图AI是没有世界模型的。所谓的“上下⽂”或者说“逻辑”，就是这个世界的基本的规律；⼈⼿⼀般都会有五根⼿指，这就是规律之⼀。绘图AI要能够理解它看到了什么，⽽不是神经⽹络单纯的记住了，某些元素和另⼀些元素⼀同出现的概率⽐较⾼，它才能表现得像⼀个⼈类画师。

曾有很多⼈质疑，AI绘图是否能真的从事“创造性”⼯作，最本质的原因，就在于“创造性”本身就需要深刻的理解规律。中国各地的景点⼀向有⼀个我很不喜欢的传统：⼀块⽯头，⼀座⼭峰，甚⾄是岩壁上的纹路，都要强⾏的把它攀附成某种具象的形象，然后再编出⼀段神话，相传这⾥原本有⼀个巨⼤的天界的XXX，因为惹怒了⽟皇⼤帝被打⼊凡间，然后流落此地化成了这块巨⽯/这座⼭峰云云。

这座⼩丘⼭势平缓似乌⻳，就叫乌⻳岭；这座⼭峰形如蹲狮，就是狮⼦峰。

我想果壳的读者在祖国各地旅游的时候，应该经常碰⻅类似的这种景点描述，茫茫多数不胜数。那么这跟AI绘画⼜有什么关系呢？这种强⾏地，要把⾃然的随机起伏特征强⾏解释为有意义的特征，在统计学上，叫做“过拟合”。当然，如果⽤⾃然语⾔，这就叫⽤⼒过猛。所以除开“⼿指法”，我们识别AI绘画的⼀个很重要的⼿段，就是AI绘画经常会“⽤⼒过猛”。

⼈类画师画的图⼀般⽽⾔都会有⾃⼰的轻重缓急：画师会为⾃⼰想要强调的画⾯增加更多细节，⽽其余的部分就可以糊⼀点、简单⼀些，⾃⼰省⼒之外观众也能⾃然⽽然地注视那些更重要的部分；⽽AI⽣成的画⾯往往是平均的，AI会在整个画⾯上不分⻘红皂⽩地堆满各种似是⽽⾮的细节，让整个画⾯显得没有重点。⼀个熟悉AI绘画的⼈能够⼀眼鉴AI，很多时候就在于这种视觉上的疲劳感觉：所有东⻄都很清晰，都很细致，都没有必要。

这就跟你听导游讲了⼀万遍“这个⽯头像XXX所以叫XXX，⼜叫XXX”⼀样。

但是这种⽤⼒过猛如果放在合适的情境下，就不再是⽤⼒过猛了：使⽤合适的模型和充满脑洞的提示词，AI绘画能画出那些⼈类画师不太可能画出来的离奇的图出来。相信⼈类历史上没有画师会画出⼀张“猫咪单板滑雪”图出来（也不⼀定，我猜《猫和⽼⿏》⾥应该能找到类似画⾯），或者⽼⻁脑袋⽼⻁⽑⽪的螃蟹（也不⼀定，没准《猫和⽼⿏》⾥也有……）。总之，当你看到这些离谱图的时候，你现在应该知道它肯定都是AI的作品。

在摄影圈⾥⼀直有个说法：⾦头红头，最终看相机后⾯那颗头。摄影师也会抱怨：总有⼈问，这张照⽚拍得真好，是⽤什么相机拍的？但是绝不会有⼈问画家，这张画画得真好，是⽤什么画笔画的？实际上在AI绘画的现在，问题是同样的：使⽤什么⼯具其实不是那么重要，重要的还是使⽤⼯具的⼈。绘画的AI模型本身是没有创造性的，⽽创造性要从使⽤AI的⼈那⾥⽣发出来。

好了，现在你脑袋⾥有⼀个离谱的想法，请使⽤合适的关键词让AI把它画出来。（可以把你的prompts在留⾔中分享给⼤家～）