最时髦的AI画画，一文包教包会

有极客大概半年前，AI绘画工具Disco Diffusion从Text-to-Image开发社区和设计行业，火到了普通用户的视野中。即便它界面简陋，满屏英文和代码，也“劝退”不了人们。因为对那些没有任何美术功底的他们来说，往输入框写一小段字，就能指导AI生成画面足够惊艳的画作。

AI绘画工具进化的速度，在这半年远超人们想象。Disco Diffusion之后，搭在Discord群聊上的Midjourney、OpenAI擅长写实的DALL·E 2、开源的Stable Diffusion等工具涌现，它们更强大，更用户友好，生成一张图的时间甚至压缩到了数秒。AI绘画的热度被一步步推高。在国内一些电商平台，你甚至可以看到有零散商家在卖教程。

今天，我们整理了3个对普通用户来说最容易上手的工具：它们中一个专于生成二维画作；一个社区氛围浓厚，生成图艺术感极强；一个是国内团队的产品，这回，你用中文挥洒创意！

Stable Diffusion特点：被认为是最强的AI绘画工具，已完全开源，市面上还有很多“魔改版”，比如专用来生成二维人像的Waifu Diffusion；事前准备：以下介绍的是Stable Diffusion的在线版本DreamStudio，这种方案对设备没有要求，只要用浏览器打开https://beta.dreamstudio.ai/dream即可。

相较Disco Diffusion，Stable Diffusion这个在线工具的界面非常简洁、友好，你打开网站后注册，然后在底下的输入框写好描述语句，点击“Dream”就能一键生成，等待时间仅为数秒。

描述词为A dream of a distant galaxy（图像主体），by Caspar David Friedrich（艺术家），matte painting trending on artstation HQ（绘画风格）。

界面右侧还有一系列的调节选项，从上到下分别是：Width、Height：生成图的长宽尺寸；Cfg Scale：大概可以理解为是图像和描述词（prompt）的匹配程度，高于20容易有失真效果；Steps：模型生成图片的迭代步数，每多一次迭代都会给AI更多的机会去比对描述词和当前结果，默认值为50；Number of images：生成图的数量；Sampler：扩散去噪算法的采样模式；Seed：随机种子，系统每次产生的随机种子都不同，所以即使你原封不动搬来了艺术家给的描述词，也无法生成相同的图片，但如果他给了你特定的随机种子码，就能生成。

基本的配置搞定后，开始做画作生成中最关键的一步——写描述词。该怎么写呢？

官方提供了一份入门教程：先输入你图像的对象、主体，比如一只熊猫、一个持剑的战士，如果只是如此简单的描述，生成的风格会非常随机，所以需要描述风格来加以限定；常被使用的风格有写实、油画、铅笔画、概念艺术等，你可以指定你要的是一幅画（a painting of + raw prompt）还是一张照片（a photograph of + raw prompt）；加上风格鲜明的艺术家关键词，来进一步明确和加强生成图的风格，比如加上达芬奇、米开朗基罗、莫奈等，另外，官方还建议尝试混合多个艺术家，这或许可以融合成更让人惊叹的效果；还可以加上一些特定的描述词，来完成最后的润色。

比如，你如果让画面有更逼真的光照，可以带上“Unreal Engine”，建议的关键词还有surrealism（超现实主义）、sharp focus（有锐利的对焦）、8k，甚至是“the most beautiful image ever seen”。

在线版本目前调教功能偏弱，比如无法批量生成图像等，如果你想有更好的生成体验，可以将已开源的Stable Diffusion部署到自己的电脑上，配置要求RTX 2060显卡等6GB显存（及以上）显卡等。这儿不展开了。

自Stable Diffusion开源以来，市面上迅速出现了它的各种“魔改版”，其中近期热度最高的要数Waifu Diffusion。Waifu指漫画、动画、游戏中的一些女性角色，有些玩家、观众喜欢这类角色到了会将她们当成妻子。可见，这是一个专于生成“纸片人”的模型。

只要打开https://colab.research.google.com/drive/1_8wPN7dJO746QXsFnB09Uq2VGgSRFuYE#scrollTo=1HaCauSq546O，然后点击上方的“全部运行”，等几分钟就能看到描述词的输入框。

至于描述词参考，可以在Twitter上搜索“waifudiffusion ALT”，之后你就会看到玩家们的图像，图像上如果有ALT标识，点开即可找到生成图的描述词。

在Stable Diffusion上试验AI作画的人太多了，各渠道累计日活用户超过1000万。创始人Emad Mostaque说，“我们迟早会到达每天生成10亿张图片的阶段，尤其是当动画生成的功能被解锁后。

”现在，甚至有人建起了AI作画关键词相关的搜索引擎，比如KERA。KERA已经收录了百万条关键词，比如搜索“Elon Musk”就能得到以上结果，如果对某一个结果感兴趣，还可以点进去看看对应的描述语句。

收费标准：有大概200张的免费生成额度，之后需要付费购买点数（生成越复杂，尺寸越大，消耗的点数越多）。

版权要求：可以商用自己创作的图像，但图像如果是通过DreamStudio生成的，就自动变成了CC0 1.0授权，这样，服务提供商Stability.ai也能处理你的图像，无需付费甚至不会经过你同意，也会一并成为通用公共领域royalty-free的图片资源。如果是你自己部署了开源的Stable Diffusion，消耗的是你自己的GPU资源，那著作权都归你所有。

Midjourney特点：可以边聊天边生成，社区氛围浓厚，画作艺术感强；事前准备：备好电脑，以及注册一个通讯软件Discord的账号，打开https://discord.gg/midjourney。点击上方链接进入官方服务器后，你在左侧频道列表中找到任意一个#newbies频道进入，然后在对话框输入/imagine，在其后出现的填空框里输入描述词，按下回车。

Midjourney bot会在60秒内生成4张图像。

图像生成后，下方会附带4个“U”和4个“V”选项，U代表upscaling（提升清晰度），V代表variations（基于已生成图像的风格再生成四张不同的图像）。你可以点击它们进一步优化图像。描述词为埃德加·艾伦·坡的塔罗牌，新艺术风格，安妮·麦卡弗里。

Midjourney设在一个人声鼎沸的聊天室，初次接触Discord的人或许会有些晕头转向，这里有几点需要注意：首先，你在公开的频道里试用时，生成结果是所有人可见的！同时，你的请求可能会混入快速变化的信息流，不要走开！如果真的找不到了，不要慌张，点击右上角的收件箱找回你的请求。任意时间点进去，都有很多人在跟你一起玩。

对于描述词，官方给出了一些建议：使用已经存在大量视觉图像的物体，比如Wizard（巫师）、Angel（天使）、Rocket（火箭）等；使用风格、艺术家、绘画媒介作为提示词，比如赛博朋克、达利、吉米力、水墨画、雕塑等；避免否定句，因为模型通常会无视它，比如当你输入“一顶不是红色的帽子”，模型看到的更可能是“帽子”、“红色”；使用单数或具体数字，而非“一堆”、“很多”、“一些”；避免空泛概念，你知道的，就是老板开会时经常会说的那些，以及甲方的需求。

真正的“高玩”还可以加入一些“黑话”，也就是一系列以“--”为前缀的提示词为图片设定条件。比如，输入“--ar 16:9”，图片比例会变成16乘9；输入“--s”加一个数值，你可以决定AI要在风格化这条路上走多远，数字越大越离谱，--s 60000，天知道会发生什么！

实在写不动描述词了，或者某张图片符合你想要的感觉，也可以直接把图片链接写进描述词里。看看别人是怎么写的是个很好的学习渠道。当然，你也可以随时在#prompt-chat频道礼貌请教：我想生成特定样式的图像，该用怎样的提示词呢？或者常在官方画廊（https://www.midjourney.com/showcase/）那逛逛，可以参考自己与别人生成的作品。

与别的模型相比，Midjourney以其艺术性闻名。有人如此评价，“Midjourney就像一个有它自己风格的艺术生。”身上附着着成百上千艺术家先辈的魂灵。从生成结果也能看出，不管你输入什么，Midjourney都更倾向于给你输出一幅绘画一样的图像，而不是假照片。比如，同样是面对描述词“女孩发现生命的意义”，Midjourney和DALL-E得到的分别是以上的样本。

新平台层出不穷的情况下，让Midjourney仍能保持吸引力的是它的超级社群——目前人数已经超三百万，远超原本占据头部的Minecraft和《堡垒之夜》。在红杉总结的当前AIGC创业图谱中，只有Midjourney同时具备了图像生成和消费者/社交两项特性。社群里，人们会自发地为新手答疑解惑，互相称赞，大家分享自己使用的描述词。官方也会定期发起主题创作，举行Office Hour。

用创始人的话说，他想让人们体验“一起做一件事”的快乐：你“画”出一只“狗”，有人会添一笔把它变成“太空狗”，紧接着有人把它变成“阿兹特克太空狗”。

你能不能在Midjourney里用中文呢？也不是不可以，但它似乎不是很懂。收费标准：任何人都可以免费在公共频道生成25张图片，之后继续使用需要会员订阅。基础会员价格为每月10美元，可生成200张图片；标准会员为每月30美元，生成次数不限。

版权要求：公共频道里生成的作品默认为CC BY-NC 4.0版权，意味着他人可任意使用或改动你的这些作品。付费用户可以任意商用生成的图片，但有一个例外，如果是一家年收入超100万的公司在使用，就需转而订阅企业会员。

6pen特点：支持用中文描述，还列出了很多艺术家和风格限定词供参考；事前准备：在iOS平台下载app，或者打开https://6pen.art/直接在网页生成。Disco Diffusion大火之后，国内一些团队开始尝试降低其使用门槛，将它产品化，比如说重整UI、提供云端算力、对模型做finetune（微调）等。6pen就是其中一支团队。

6pen基于市面上已有的开源模型Latent Diffusion和Disco Diffusion，做了自研模型，还根据生成速度和体量，分别研发了擅长小体量、简单场景的南瓜模型，和擅长复杂场景，但响应速度较慢的西瓜模型。官方表示，相比原版，自研模型比较重要的优化部分，是提高分辨率和支持中文。

6pen很自信，在合适的文本描述和风格修饰下，他们相信6pen可以实现不输于Midjourney甚至DALL·E 2的效果。界面简洁，引导细致，还列出了很多艺术家和风格限定词供参考。官方自己有一份非常详细的使用教程，手把手教，亲切得像生怕你学不会的老母亲。

我们整理了这样一些建议：你可以直接使用中文描述！

描述词要具体，讲出你要的物体和它的特征，但物体不要太多，两到三个就好；放弃描述情绪和事件，模型不会懂什么是“她爱不爱我”并画下来；视角、细节和纹理、物体占据画面的大小、色调、画面特点、年代、渲染/建模工具，这些是模型可以处理的信息；如果点选的参考艺术家画过很多裸体，会有概率出现纯黑的图片（系统判定你在“搞黄色”）；描述词之外，可以加入画面类型、艺术家、尺寸等信息，他们有点像滤镜，能让你的画看起来更像那么回事；如果你有绘画基础，可以自己画底稿，再由AI在你的基础上描绘具体场景，底稿建议使用色块和形状而非纯线稿，因为AI不会自动填色。

此外，6pen还会返回每个生成过程的迭代图，Loss曲线，甚至电量消耗等数据，让用户更好了解生产过程，帮助改进。在等待生成期间，6pen会让你为一些生成作品投票，看看哪张作品效果更好。这时你会觉得自己像一个给AI的打工者，帮助模型升级进步。

6pen的创始人王登科指出过AI绘画技术目前的不足，比如人的肢体（主要是手指）和眼球效果较差，多主体对象生成效果差，也无法进行有逻辑延续的故事性生成。

收费标准：可以免费排队生成，也可以付费快速生成，价格为0.1元起；版权要求：6pen的自研模型都采用MIT协议开源，生成出来的图片版权完全授权给生成者本人。6pen也支持采用CC0协议的Stable Diffusion，这时产生的作品版权就不由生成者独享了。生成者如果使用了还在世的艺术家作为画面参考，且生成作品的风格与艺术家相似，也可能存在版权争议。

同理，如果使用了参考图，且参考图并非原创（如摄影、绘画），那么生成的结果也存在版权争议。

AI绘画还在狂奔路上，现在这些工具解决的是“写写字就能画画”，未来可能会进一步解决“写写字就能画多好”的问题。随着这些工具的基础功能，以及背后的模型逐步完善，我们要争的，就是如何写prompt了。那天，我看到有人问“prompt这个词现在有中文翻译了吗？”底下有人回答，“咒语。”