有极客大概半年前,AI绘画工具Disco Diffusion从Text-to-Image开发社区和设计行业,火到了普通用户的视野中。即便它界面简陋,满屏英文和代码,也“劝退”不了人们。因为对那些没有任何美术功底的他们来说,往输入框写一小段字,就能指导AI生成画面足够惊艳的画作。
AI绘画工具进化的速度,在这半年远超人们想象。Disco Diffusion之后,搭在Discord群聊上的Midjourney、OpenAI擅长写实的DALL·E 2、开源的Stable Diffusion等工具涌现,它们更强大,更用户友好,生成一张图的时间甚至压缩到了数秒。AI绘画的热度被一步步推高。在国内一些电商平台,你甚至可以看到有零散商家在卖教程。
今天,我们整理了3个对普通用户来说最容易上手的工具:它们中一个专于生成二维画作;一个社区氛围浓厚,生成图艺术感极强;一个是国内团队的产品,这回,你用中文挥洒创意!
Stable Diffusion特点:被认为是最强的AI绘画工具,已完全开源,市面上还有很多“魔改版”,比如专用来生成二维人像的Waifu Diffusion;事前准备:以下介绍的是Stable Diffusion的在线版本DreamStudio,这种方案对设备没有要求,只要用浏览器打开https://beta.dreamstudio.ai/dream即可。
相较Disco Diffusion,Stable Diffusion这个在线工具的界面非常简洁、友好,你打开网站后注册,然后在底下的输入框写好描述语句,点击“Dream”就能一键生成,等待时间仅为数秒。
描述词为A dream of a distant galaxy(图像主体),by Caspar David Friedrich(艺术家),matte painting trending on artstation HQ(绘画风格)。
界面右侧还有一系列的调节选项,从上到下分别是:Width、Height:生成图的长宽尺寸;Cfg Scale:大概可以理解为是图像和描述词(prompt)的匹配程度,高于20容易有失真效果;Steps:模型生成图片的迭代步数,每多一次迭代都会给AI更多的机会去比对描述词和当前结果,默认值为50;Number of images:生成图的数量;Sampler:扩散去噪算法的采样模式;Seed:随机种子,系统每次产生的随机种子都不同,所以即使你原封不动搬来了艺术家给的描述词,也无法生成相同的图片,但如果他给了你特定的随机种子码,就能生成。
基本的配置搞定后,开始做画作生成中最关键的一步——写描述词。该怎么写呢?
官方提供了一份入门教程:先输入你图像的对象、主体,比如一只熊猫、一个持剑的战士,如果只是如此简单的描述,生成的风格会非常随机,所以需要描述风格来加以限定;常被使用的风格有写实、油画、铅笔画、概念艺术等,你可以指定你要的是一幅画(a painting of + raw prompt)还是一张照片(a photograph of + raw prompt);加上风格鲜明的艺术家关键词,来进一步明确和加强生成图的风格,比如加上达芬奇、米开朗基罗、莫奈等,另外,官方还建议尝试混合多个艺术家,这或许可以融合成更让人惊叹的效果;还可以加上一些特定的描述词,来完成最后的润色。
比如,你如果让画面有更逼真的光照,可以带上“Unreal Engine”,建议的关键词还有surrealism(超现实主义)、sharp focus(有锐利的对焦)、8k,甚至是“the most beautiful image ever seen”。
在线版本目前调教功能偏弱,比如无法批量生成图像等,如果你想有更好的生成体验,可以将已开源的Stable Diffusion部署到自己的电脑上,配置要求RTX 2060显卡等6GB显存(及以上)显卡等。这儿不展开了。
自Stable Diffusion开源以来,市面上迅速出现了它的各种“魔改版”,其中近期热度最高的要数Waifu Diffusion。Waifu指漫画、动画、游戏中的一些女性角色,有些玩家、观众喜欢这类角色到了会将她们当成妻子。可见,这是一个专于生成“纸片人”的模型。
只要打开https://colab.research.google.com/drive/1_8wPN7dJO746QXsFnB09Uq2VGgSRFuYE#scrollTo=1HaCauSq546O,然后点击上方的“全部运行”,等几分钟就能看到描述词的输入框。
至于描述词参考,可以在Twitter上搜索“waifudiffusion ALT”,之后你就会看到玩家们的图像,图像上如果有ALT标识,点开即可找到生成图的描述词。
在Stable Diffusion上试验AI作画的人太多了,各渠道累计日活用户超过1000万。创始人Emad Mostaque说,“我们迟早会到达每天生成10亿张图片的阶段,尤其是当动画生成的功能被解锁后。
”现在,甚至有人建起了AI作画关键词相关的搜索引擎,比如KERA。KERA已经收录了百万条关键词,比如搜索“Elon Musk”就能得到以上结果,如果对某一个结果感兴趣,还可以点进去看看对应的描述语句。
收费标准:有大概200张的免费生成额度,之后需要付费购买点数(生成越复杂,尺寸越大,消耗的点数越多)。
版权要求:可以商用自己创作的图像,但图像如果是通过DreamStudio生成的,就自动变成了CC0 1.0授权,这样,服务提供商Stability.ai也能处理你的图像,无需付费甚至不会经过你同意,也会一并成为通用公共领域royalty-free的图片资源。如果是你自己部署了开源的Stable Diffusion,消耗的是你自己的GPU资源,那著作权都归你所有。
Midjourney特点:可以边聊天边生成,社区氛围浓厚,画作艺术感强;事前准备:备好电脑,以及注册一个通讯软件Discord的账号,打开https://discord.gg/midjourney。点击上方链接进入官方服务器后,你在左侧频道列表中找到任意一个#newbies频道进入,然后在对话框输入/imagine,在其后出现的填空框里输入描述词,按下回车。
Midjourney bot会在60秒内生成4张图像。
图像生成后,下方会附带4个“U”和4个“V”选项,U代表upscaling(提升清晰度),V代表variations(基于已生成图像的风格再生成四张不同的图像)。你可以点击它们进一步优化图像。描述词为埃德加·艾伦·坡的塔罗牌,新艺术风格,安妮·麦卡弗里。
Midjourney设在一个人声鼎沸的聊天室,初次接触Discord的人或许会有些晕头转向,这里有几点需要注意:首先,你在公开的频道里试用时,生成结果是所有人可见的!同时,你的请求可能会混入快速变化的信息流,不要走开!如果真的找不到了,不要慌张,点击右上角的收件箱找回你的请求。任意时间点进去,都有很多人在跟你一起玩。
对于描述词,官方给出了一些建议:使用已经存在大量视觉图像的物体,比如Wizard(巫师)、Angel(天使)、Rocket(火箭)等;使用风格、艺术家、绘画媒介作为提示词,比如赛博朋克、达利、吉米力、水墨画、雕塑等;避免否定句,因为模型通常会无视它,比如当你输入“一顶不是红色的帽子”,模型看到的更可能是“帽子”、“红色”;使用单数或具体数字,而非“一堆”、“很多”、“一些”;避免空泛概念,你知道的,就是老板开会时经常会说的那些,以及甲方的需求。
真正的“高玩”还可以加入一些“黑话”,也就是一系列以“--”为前缀的提示词为图片设定条件。比如,输入“--ar 16:9”,图片比例会变成16乘9;输入“--s”加一个数值,你可以决定AI要在风格化这条路上走多远,数字越大越离谱,--s 60000,天知道会发生什么!
实在写不动描述词了,或者某张图片符合你想要的感觉,也可以直接把图片链接写进描述词里。看看别人是怎么写的是个很好的学习渠道。当然,你也可以随时在#prompt-chat频道礼貌请教:我想生成特定样式的图像,该用怎样的提示词呢?或者常在官方画廊(https://www.midjourney.com/showcase/)那逛逛,可以参考自己与别人生成的作品。
与别的模型相比,Midjourney以其艺术性闻名。有人如此评价,“Midjourney就像一个有它自己风格的艺术生。”身上附着着成百上千艺术家先辈的魂灵。从生成结果也能看出,不管你输入什么,Midjourney都更倾向于给你输出一幅绘画一样的图像,而不是假照片。比如,同样是面对描述词“女孩发现生命的意义”,Midjourney和DALL-E得到的分别是以上的样本。
新平台层出不穷的情况下,让Midjourney仍能保持吸引力的是它的超级社群——目前人数已经超三百万,远超原本占据头部的Minecraft和《堡垒之夜》。在红杉总结的当前AIGC创业图谱中,只有Midjourney同时具备了图像生成和消费者/社交两项特性。社群里,人们会自发地为新手答疑解惑,互相称赞,大家分享自己使用的描述词。官方也会定期发起主题创作,举行Office Hour。
用创始人的话说,他想让人们体验“一起做一件事”的快乐:你“画”出一只“狗”,有人会添一笔把它变成“太空狗”,紧接着有人把它变成“阿兹特克太空狗”。
你能不能在Midjourney里用中文呢?也不是不可以,但它似乎不是很懂。收费标准:任何人都可以免费在公共频道生成25张图片,之后继续使用需要会员订阅。基础会员价格为每月10美元,可生成200张图片;标准会员为每月30美元,生成次数不限。
版权要求:公共频道里生成的作品默认为CC BY-NC 4.0版权,意味着他人可任意使用或改动你的这些作品。付费用户可以任意商用生成的图片,但有一个例外,如果是一家年收入超100万的公司在使用,就需转而订阅企业会员。
6pen特点:支持用中文描述,还列出了很多艺术家和风格限定词供参考;事前准备:在iOS平台下载app,或者打开https://6pen.art/直接在网页生成。Disco Diffusion大火之后,国内一些团队开始尝试降低其使用门槛,将它产品化,比如说重整UI、提供云端算力、对模型做finetune(微调)等。6pen就是其中一支团队。
6pen基于市面上已有的开源模型Latent Diffusion和Disco Diffusion,做了自研模型,还根据生成速度和体量,分别研发了擅长小体量、简单场景的南瓜模型,和擅长复杂场景,但响应速度较慢的西瓜模型。官方表示,相比原版,自研模型比较重要的优化部分,是提高分辨率和支持中文。
6pen很自信,在合适的文本描述和风格修饰下,他们相信6pen可以实现不输于Midjourney甚至DALL·E 2的效果。界面简洁,引导细致,还列出了很多艺术家和风格限定词供参考。官方自己有一份非常详细的使用教程,手把手教,亲切得像生怕你学不会的老母亲。
我们整理了这样一些建议:你可以直接使用中文描述!
描述词要具体,讲出你要的物体和它的特征,但物体不要太多,两到三个就好;放弃描述情绪和事件,模型不会懂什么是“她爱不爱我”并画下来;视角、细节和纹理、物体占据画面的大小、色调、画面特点、年代、渲染/建模工具,这些是模型可以处理的信息;如果点选的参考艺术家画过很多裸体,会有概率出现纯黑的图片(系统判定你在“搞黄色”);描述词之外,可以加入画面类型、艺术家、尺寸等信息,他们有点像滤镜,能让你的画看起来更像那么回事;如果你有绘画基础,可以自己画底稿,再由AI在你的基础上描绘具体场景,底稿建议使用色块和形状而非纯线稿,因为AI不会自动填色。
此外,6pen还会返回每个生成过程的迭代图,Loss曲线,甚至电量消耗等数据,让用户更好了解生产过程,帮助改进。在等待生成期间,6pen会让你为一些生成作品投票,看看哪张作品效果更好。这时你会觉得自己像一个给AI的打工者,帮助模型升级进步。
6pen的创始人王登科指出过AI绘画技术目前的不足,比如人的肢体(主要是手指)和眼球效果较差,多主体对象生成效果差,也无法进行有逻辑延续的故事性生成。
收费标准:可以免费排队生成,也可以付费快速生成,价格为0.1元起;版权要求:6pen的自研模型都采用MIT协议开源,生成出来的图片版权完全授权给生成者本人。6pen也支持采用CC0协议的Stable Diffusion,这时产生的作品版权就不由生成者独享了。生成者如果使用了还在世的艺术家作为画面参考,且生成作品的风格与艺术家相似,也可能存在版权争议。
同理,如果使用了参考图,且参考图并非原创(如摄影、绘画),那么生成的结果也存在版权争议。
AI绘画还在狂奔路上,现在这些工具解决的是“写写字就能画画”,未来可能会进一步解决“写写字就能画多好”的问题。随着这些工具的基础功能,以及背后的模型逐步完善,我们要争的,就是如何写prompt了。那天,我看到有人问“prompt这个词现在有中文翻译了吗?”底下有人回答,“咒语。”