前段时间,⼈类艺术家们在 Instagram 上发起 #artbyhumans 运动,抵制 AI 作画,“影响艺术家收⼊”、“AI 在艺术作品⾥抓取再拼贴”……不知当他们看完 AI 画出来的⼿后,会不会稍微松⼝⽓?因为想象⼒和创造⼒,AI 被吹捧上天,但不可忽视的是,它们画出来的⼿如此笨拙、怪异,像惊悚电影⾥的道具。⽹上流传着这样的梗图,调侃 AI 的绘画功底。“怎么辨别这是 AI 画的?
看⼿就⾏了。”那么,为什么 AI 画不好⼿?有⼀说⼀,⼿是真的很难画啊!别说 AI,⼈类⾃⼰都不⼀定能把⼿画明⽩。荷兰艺术家埃舍尔(M.C. Escher)在 1948 年创作过⼀幅⽯版画,名字就叫 Drawing Hands(画⼿)。画⾯中,两只⼿通过画笔彼此相连,“⼀只⼿创造了另⼀只,⽽另⼀只⼜创造了第⼀只”,这种⽭盾恰恰表达出了:⼈们想要描绘出两只动态的⼿有多难。
如果再搜⼀搜,你会发现“画不好⼿”是⼀个困扰全球画师的难题。插画家 Anna Daviscourt 写道:“画⼿是最有表现⼒,最复杂,解剖学程度精细的⼯程。”还有⼈把问题抛给了 AI 的“⾃家⼈”——ChatGPT。ChatGPT 答道:“⼿是由许多⼩⻣头、肌⾁和肌腱组成的,所有这些都必须被准确描绘出来才⾏。此外,⼿的位置也很难表达,因为它们不断在运动状态中。
因为这些困难,许多艺术家发现,⼿部绘画是他们技艺中最令⼈沮丧和最具挑战性的⽅⾯之⼀。”⼿的复杂性不仅仅在于它本身就有很多个关节、折痕等微⼩却关键的细节,还在于⼿每动⼀下,原有的关节都会变得不同。有⼈还真数过,从⼿指的⻓宽度,到掌⻣与腕关节,⼀只⼿⼤概就有 30 个⼏何变化点,这还不包括⼿掌的阴影与褶皱的变化。
如果你仔细观察的话,会发现⼤多数卡通⼈物的⼿都只有 4 个指头(三个⼿指和⼀个⼤拇指),因为在动画流程制作繁复的早期,少画⼀根⼿指省时省⼒,还省钱!迪⼠尼曾透露过,少画 1 根⼿指为公司节省过上百万美⾦。⽐起⾯部,⼿并没有那么多可供 AI 学习的样本。
AI 在“创造”艺术时并没有逻辑思维,它并不知道这⾥或者那⾥“应该”有什么,只能先接收⼈类的指令,再与系统内的训练库进⾏⽐照,⽤⽣成的图像尽可能回答“what is this”(这是什么),⽽⾮“why is this”(为什么是这个)。所以,你要想⽣成更加精准的图像,⽐如⼀头栩栩如⽣的⼩猪,就要给 AI ⾜够具体的指令。
但这还远远不够,⼈们要想 AI 画得精准,还要提供⾜够丰富的真实图像标注,让 AI 学习。⼿这个复杂⼏何形状,意味着没有通⽤的线条或形状集合,可供 AI 识别⼿。所以,AI 必须结合许多不同的形状、组合来画出令⼈信服的⼿。⽽为什么 AI 总是把⼿画残,恰恰是因为没有充⾜的参照物。知乎上有⽹友这样解答:“⼀张图⽚上,⼿往往占的⾯积很⼩,经常被遮挡和半遮挡,导致⼿部所占像素较少细节不够。
⽽且,⼿部的标注是要准确标注⼿掌、拇指、⻝指、中指、⽆名指和⼩拇指才可以,这部分的⼯作算法很难⾃动化,需要⼈类来完成,这就⼤⼤增加了成本。”这可不是极个别情况,如果把⼈类的脸变成像⼿⼀样复杂的动态结构,AI 也同样画不明⽩。在我们的脸上,唯⼀能活动的关节是颞颌关节,在⼀些⼆次元作品中,还常常弱化这个关节的存在。但如果我们的⾯部变得⾜够“灵活”,⽐如,⿐⼦可伸缩,⾆头能打结,那 AI 肯定也会犯难。
还有⼀个让“AI 画不好⼿”传播开来的原因,那就是:⼿⼀旦画错,真的是很明显啊!如果 AI 创造了⼀个⽐例不太对的肩膀,我们⼀般不会注意到画⾯中这个⼈的肩膀窄了百分之五。但如果他们的拇指、⻝指、中指、⽆名指和⼩指都⽐平均⽔平⼩⼀点,那就容易显得奇怪了。这是受到⼈的固有感知影响。⼼理学有⼀个理论叫做“撒切尔效应”,1980 年由约克⼤学⼼理学教授彼得·汤普提出,当时他以撒切尔夫⼈的画像作例。
我们第⼀眼能看出什么?右图的眼睛与嘴巴被上下颠倒了。你需要更仔细才能看出,左图的五官实际上也是错位的。也就是说,错位发⽣在正⽴的脸上很容易露馅,但发⽣在倒⽴的脸上就能骗过⼈。因为我们平⽇⾥很难⻅到倒⽴的脸,难以形成固有认知,所以在你把屏幕旋转过来之前,很难看出不同。⽽我们对⼿部太熟悉了,感知格外敏感。教会 AI 画⼿,有啥⽅法吗?不得不说,⼈类在提升 AI 画技⽅⾯,也是“卷”得孜孜不倦。
今年初,⼀个叫“ControlNet”的新 AI 插件在 GitHub 上爆⽕,如今已收获超过 10k 星。简单来说,这个插件通过给 Stable Diffusion 这样的 AI 作画模型增加⼀个额外输⼊,来优化⽣成的细节,相当于给 AI 创作加了⼀层 buff。效果的确⽐之前过于抽象的⼿部创作靠谱了些,但如果仔细看的话,你还是会发现……咦,怎么⼀共有 6 个⼿指?也有⼀些⽐较取巧的⽅法。
⽐如,有⼈传授经验:要想让 AI 画出⼀只正常的⼿,你只需要告诉它“mittens”(⼿套)这⼀个词,往往在有⼿套的图⽚中,五个⼿指根根分明,且没有什么特殊的⼿势。或者告诉它“结婚戒指”、“指甲油”这两个词。AI 往往就能搜索到很多⾼清的⼿部照⽚,降低画残概率。说到底,这些都属于⼀些帮助 AI 偷懒的⼩技巧,要论画⼿的真实⼒,AI 还是咱们⼈类,都得好好学习啊!