很多人说今年是“AI绘画元年”。先是Disco Diffusion火出了圈,从Text-to-Image(用文字生成图像)开发社区和创意设计行业,火到了普通人的视野中。人们热衷将两种完全不搭界的对象,比如“达芬奇”和“iPhone”字样,输入AI程序,然后等着画面层层渲染完成。那是一种“拆盲盒”般的体验。
对于没有任何美术基础和绘画能力的人来说,AI的“融梗”图大多足够惊艳,即便效果“翻车”,也能通过调整描述词继续优化。紧接着,AI绘画工具Midjourney也火了。和Disco Diffusion满屏英文和代码的简陋界面不同,Midjourney直接搭载在Discord频道上,输入指令的过程和给人发微信没什么不同,更让人吃惊的是,它生成画作的时间一般在60秒左右。
然后,OpenAI的DALL·E 2半途杀出,和前两者擅长“概念画风”不同,DALL·E 2更“写实”,60秒不到可以生成10张图,不满意还可以擦去局部重新生成……短短几个月,“最强AI画师的称号几次易主。
谷歌也坐不住,五月底发论文介绍自家选手——Imagen,直接叫板DALL·E 2,号称Imagen有“前所未有的写实感和深度的语言理解”,目前暂未开放。这两个月来,我和前面三位“AI画师”频繁打交道,几乎每天都在测试描述词、调教机器人,踩了很多坑,翻了不少车。但与此同时,我收获了不少杰作。这次,我将对比它们的画作生成特点、用户友好度等方面,同时整理好了它们的网址,以及一些简单的操作方法。
在普通用户那里,它们是具像化想象的得力工具;在专业人群那里,如果将它们和其他工具联动起来,能有无穷尽的想象空间。Disco Diffusion生成图的艺术性最高。
Disco Diffusion生成画作的流程大概分为这几步:打开程序;设置图片尺寸、过程图张数、生成图张数等参数;用英文写好描述词(Prompts),格式大致为“画作类型+对象(可以有多个)+画风设定+一些起限定作用的修辞词”;然后开始运行,等待AI渲染画作。Midjourney不怎么“超纲”,更“听话”。
Midjourney目前还是邀请制,内测地址:https://o9q981dirmk.typeform.com/to/zZtF1mVc?typeform-source=midjourney-gallery。为了测试Midjourney的生成效果,我复制了之前“投喂”给Disco Diffusion的关键词——“星空”、“向日葵”、“梵高”——粘贴进去。Midjourney的优点就是:快。
软件生成图非常快,一张算下来大概60秒。你要是对成品不满意,还可以几乎实时地提升细节,或延伸变化。DALL·E 2我给梵高理发,我让大象转身。我当了回“托尼”,用DALL·E 2给梵高理发,申请地址:labs.openai.com/waitlist。我等了一个多月,才拿到了DALL·E 2的内测资格。
如果说Disco Diffusion更擅长描绘氛围、风景或概念艺术,那么DALL·E 2则擅长写实。在版权方面,DALL·E 2背后的组织OpenAI列了几条严格的限制:图片生成版权最终归属OpenAI;仅供个人学习探索使用,不能商用,不能用于制作NFT;不能在社交媒体上发布过于写实的人脸生成结果,会有肖像侵权风险。