人工智能创作简史

这是莎士比亚第18首十四行诗中的一个诗节：

Shall I compare thee to a summer's day?

thou art more lovely and more temperate:

rough winds do shake the darling buds of May,

and summer's lease hath all too short a date。

我可能把你和夏天相比拟？

你比夏天更可爱更温和：

狂风会把五月的花苞吹落地，

夏天也嫌太短促，匆匆而过。

本文中出现的莎士比亚十四行诗中文译作除非特别说明，均为梁实秋译本。

这是由人工智能程序Deep-speare创作的十四行诗：

Yet in a circle pallid as it flow,

by this bright sun, that with his light display,

roll'd from the sands, and half the buds of snow,

and calmly on him shall infold away。

仔细阅读Deep-speare写的诗，你可能会察觉到一丝荒谬，不过它倒确实遵循章法。

用英文老师的话来说就是，乍看之下这首诗歌每一行的节奏、韵律和基本语法都还挺像那么一回事。

正如该研究团队发现的那样，当向全世界展示AI创作的诗歌时，不少人都被糊弄过去了——大多数读者无法区分开AI生成的诗和人类作者写出的作品。

该团队由三位机器学习研究人员和一名文学学者组成，使用古腾堡工程在线图书馆（Project Gutenberg）收录的2700首十四行诗来训练AI诗人。

该AI诗人利用被称为深度学习的AI方法，对训练数据库中的诗歌进行挖掘，不断地“冥思苦想”出与样本匹配的诗句，自己学会作诗的。他们并没有像以往类似的项目一样，给AI诗人输入韵律、发音方面的字典等资源，然而，Deep-speare靠着摸索，自己学会了十四行诗写作的三大要素：节奏、韵律，和自然语言的基本原理（即如何将词汇流畅地衔接在一起）。

古腾堡工程（Project Gutenberg），是一项志愿工作，致力于将文化作品的数字化和归档，以“鼓励创作和发行电子书”为其宗旨。该工程肇始于1971年，是最早的数字图书馆。截至2012年7月，古腾堡工程声称超过40,000件馆藏。

该团队的目标是探索深度学习在生成自然语言上能做到何种程度，以及如何充分利用诗歌的有趣特质。尤其是像十四行诗这样的诗歌，其节奏和韵律有着刻板和规整的模式，想知道是否可以通过设计系统体系，让Deep-speare自主学习此类模式。这一切的努力离不开计算创造力领域的蓬勃发展。

一幅由AI创作出的肖像画曾在纽约佳士得（Christie’s）拍卖行以43.2万美元的价格成交；AI作曲项目DeepBach创作的巴赫风格音乐作品足以让人信以为真；而在雕塑和舞蹈的领域，也能看见AI的身影。除此之外，在语言和文学方面，来自OpenAI实验室的GPT-2文本生成系统凭实力证明了人工智能可以仅通过开头句，就能生产出相当流畅的文本段落。

在过去的十年里，正是深度学习的蓬勃发展才使得这些关于计算创造力的实验成为可能。深度学习具有创作追求的几个关键优势：对初学者来说，它非常灵活，而且也能相对容易地训练出能执行各种任务的深度学习系统（我们称之为模型）。这些模型擅长发现模式，并从中进行总结归纳——有时候甚至会产生令人惊奇的结果，而这种优势也被称为“偶发创造力”。同时，深度学习算法内在因素的随机性会导致输出结果的千变万化。

这种结果上的千变万化如果能够被人类协作者耐心地筛出，那么这种可变性将非常适合创造性应用。

一首诗是如何被写出来的？关于自然语言处理模型，十四行诗最主要有两个特点：14行的长度，和由两部分组成的“论证”结构。后者指的是诗人一般会在诗歌的前半部分提出一个问题，然后用结尾的部分来解答这个疑惑。

在十六世纪，英国诗人采用“五步抑扬格”（iambic pentameter）的节奏方式来创作诗歌，即一行诗歌拥有10个音节（5个音步）的轻重音节奏。通常，一首十四行诗由三个用来提出“问题”的四行诗（quatrain）和末尾的对偶句（couplet）构成，诗歌的韵律常为「ABAB CDCD EFEF GG」。

在莎士比亚手里，此种韵律形式使用到了最纯熟的地步，以至于今天我们都称其为“莎士比亚体之十四行诗”。

在Deep-speare项目组中，我们试图生成莎士比亚十四行诗前半部分的“发问”段落中的一段四行诗。因此，相比于简单复制诗歌的十四行形式或者结尾的两行“论证”的诗句，我们更专注于生成遵循“五步抑扬格”和韵律的文本。我们也许会在未来的某天继续攻克这个更难的挑战，但目前我们更需要证明的是AI诗人具备产生一段单独的四行诗的能力。

Deep-speare采用了三种自然语言处理模型进行创作，它们分别是通过评估备选单词的概率选择合适单词的语言模型、评估每行诗歌的节奏的节奏模型，以及确保每行诗歌都遵循韵律的韵律模型。AI诗人会随机选择一种经典韵律来创作诗节。比如下图这个例子，它就采用了“ABBA”的押韵方式，即在一个四行的诗节当中，首尾两行押韵，中间两行押韵。

在掌握这个模版之后，它以一个令人惊讶的方式开始生成这首诗歌——从最后一行的最后一个单词开始，从右到左生成符合规律的文本。

在上图的例子“from pardon to him, who will stand and wait”中，Deep-speare首先从句末的“wait”这个单词开始生成文本，利用上述提到的概率处理模型，对于词语的选择，它先考虑了所有英文词汇出现在该位置的可能性，选出其中排名前五的候选单词。然而，模型并不会直接使用概率最大的单词，而是从五个单词里面随机选择一个。

以退为进，AI诗人通过对每个词倒推来进行文本生成，而每一个候选单词的概率得分显示了单词之间相邻关系和出现在同一句子中的概率。

利用这样的方法，AI诗人生产了许多候选诗句，接下来节奏模型会给它们打分，找出符合“五步抑扬格”节奏规律的诗句。总的来说，我们的系统由三个部分组成：一个学会了“五步抑扬格”的节奏模型，一个学会了词汇押韵的模型，以及一个学会了词与词之间的经典搭配的语言模型，其中语言模型是能够逐字生成十四行诗的最主要部分。

经过适当训练的语言模型会赋予流利的句子较高的概率分，给无意义的句子较低的概率分。考虑到语言生产和理解方式一般是逐词进行，这个原理实际上允许我们把更复杂的、句子层面上的问题分解成单词层面的简单问题。因此，语言模型的工作就是通过部分句子预测下一个单词是什么。为了进行这种预测，模型会查找所有可能的单词并给予它们概率分数，而这些分数取决于目前句子中已有的词汇。

通常，自然语言模型会通过语料库的单词和句子判断文本的出现概率，而语料库的内容可以来自维基百科词条，Reddit中的讨论，或者专门用于训练语言处理的语料库。从文字库中，人工智能可以学习哪些单词是最常一起出现的。

而在我们的Deep-speare项目中，AI诗人先是从在线图书馆Project Gutenberg收录的全部诗歌中学会了语言运用的基本课程，然后再通过包含了36.7万个单词的2700首莎士比亚十四行诗来进一步打磨它的十四行诗写作能力。

人们对下一个单词的“惊奇”程度可以被用于衡量一个语言模型的质量。

如果下一个单词被赋予了很高的概率分数，这说明这个单词的出现比较符合规律，所以并不会让人感到惊讶；但如果被赋予了很低的概率分数，那么人们在读到这个单词的时候，会感到非常不自然。这种惊奇程度在训练模型的过程中被当成重要的信号。因此，当我们每次都通过大量文本来处理每一个词汇，而且模型不会对连在一起的词汇感到惊讶，那么我们便可以认为，这个模型已经很大程度上掌握了语言的复杂性了。

一旦语言模型被训练好了，无中生有地生成单句或多条诗句就不再是难事了。接下来，我们让节奏模型遵守每行诗歌要有10个以轻音重音的模式结合音节的规律，然后，它会检查每个单词的字母和句子的标点符号，通过字母决定音节该如何分配，哪一个音节要归类为重音。

韵律模型也是从过去的十四行诗集中含英咀华学会的，但它只会看每行最后一个单词的字母。在训练过程中，我们告诉模型，在四行诗中的每句诗的最后一个词都需要押韵，然后我们让它找出那些词中最相似的词，越是相似的单词，就越有可能押韵。以莎士比亚的诗歌为例子，“day”和“May”的押韵分数很高，“temperate”和“date”也是如此。

一旦Deep-speare被训练好并准备创作，我们会给它提供莎士比亚十四行诗中三个最经典的韵律模版来从中选择：AABB, ABBA, ABAB。在写作过程中，语言模型会先随机选取其中一个模板，再逐词地产生诗句，当写到了应该押韵的单词时，它会为押韵模型提供多个候选单词。

在检验Deep-speare的输出结果时，我们首先要确保它没有复制语料库里的原句。我们发现，它作品中的诗句并未和训练数据有很大重叠，因此，我们相信AI诗人不是单靠复制粘贴产生作品的，它的诗歌可以说都是原创的。不过，原创并不是质量好的代名词，为了检验作品质量，我们请了人类评委进行分析，他们来自两个不同的背景。

第一组评委是亚马逊Mechanical Turk平台雇佣的众包工人，他们只会基础的英语，没有诗歌方面的专业知识。我们向他们同时展示AI诗人和人类诗人写的十四行诗，并让他们指出哪一首是人类写的。但第一次的检验结果令我们感到大失所望，因为工人们可以近乎完美指出哪首是人类诗歌！看上去机器学习的结果显然不符合人们的鉴赏标准。

为了防止评委们耍小技巧作弊，我们把所有的待鉴别诗歌都转换为图像，再让他们指出哪首是人类诗歌作品。这次他们的正确率从近乎百分百下降到了百分之五十，这说明他们无法准确地区分人类和机器人的诗歌作品。尽管我们还是无法阻止所有人不去手动输入诗歌再谷歌一下结果，但手动查找确实需要花费不少时间。总的来说，这次正确率的下降说明了AI诗人的作品在某种程度上，确实可以以假乱真。

我们的第二位评委是多伦多大学文学助理教授亚当·哈蒙德（Adam Hammond）。与第一组评委的测试过程不同，第二次质量检验不再是猜测游戏。相反，哈蒙德将会收到混合着人工和机器创作的诗歌，并从韵律、节奏、可读性和情感影响力这四个维度对它们进行打分。他给了Deep-speare十四行诗很高的韵律分和节奏分，实际上，与人类写作的十四行诗相比，它们在韵律和节奏上的评分更高。

对这个结果，哈蒙德也并不感到惊讶，他认为人类诗人经常打破规律来取得一些诗歌效果。反倒是在可读性和情感影响力上，AI诗人则明显逊色了不少，文学专家可以轻易通过这两个方面指出哪首是机器的创作。

Deep-speare项目最有趣的地方之一是它造成的轰动。我们在2018年计算语言学学术会议上做完报告之后，世界各地的新闻媒体报道了这个成果。很多文章都引用了以下的诗节，以证明AI诗人Deep-speare能够创造像人类创造的诗歌：

With joyous gambols gay and still array,

no longer when he ’twas, while in his day

at first to pass in all delightful ways

around him, charming, and of all his days。

当哈蒙德在BBC广播电台接受采访的时候，主持人朗读了这个段落并问他的看法，哈蒙德则反问主持人是否有注意到诗歌中明显的语法错误“he ’twas”来作为“he it was”的缩写，主持人表示她并没注意到。

社会科学家雪莉·特克尔（Sherry Turkle）把人们忽视人工智能的明显错误，却依然感慨其成就的现象称为“伊莉莎效应”（the Eliza effect）。换句话说，人们可以过度解读机器产生的结果，甚至读出来原本不存在的意义。

这个现象最早可以追溯到十九世纪六十年代，在麻省理工大学，计算机科学家约瑟夫·维森鲍姆（Joseph Weizenbaum）开发了第一个聊天机器人伊莉莎（Eliza），它会模仿心理治疗师的说话方式。尽管这个程序相当粗糙，还有很大的局限性，但维森鲍姆惊讶地发现用户轻易地就被机器人“欺骗”了。

公众太希望这些十四行诗可以用于证明人工智能的力量，以至于忽略了那些与之相悖的证据。

这种蓄意的误解可能会对AI诗人真正的能力发展造成阻碍。我们还在持续进行AI诗人的项目，目标之一就是提升我们AI诗人作品的可读性和情感影响力。而要想提升整体的流畅度，其中一个策略是利用大范围的语料库（例如整个维基百科）去“预训练”语言模型，让它可以在一段较长的叙述中更好掌握词汇出现的规律。在这个基础上，我们再进一步对它进行十四行诗文本生成的训练。

我们同样也在思考，人类诗人是如何创作诗歌的：他们总不会在桌子旁正襟危坐，思考着“我第一个单词应该是什么”，然后冥思苦想，思考下一个单词该接什么好。相反，他们都是心中先构思出一个主题或者一段故事，再通过单词和句子表达所思所想。其实在Deep-speare项目中，我们已经做到了让AI诗人根据给定的主题来生成相关的文本，比如让它创作主题是“爱”或“失去”的诗句。

让机器按照一定的主题，也许会提升诗歌的流畅度，但与此同时，它的词汇选择将不会那么丰富，因为它总要先学习哪些词汇符合某些主题。之后，我们计划使用更多分层的语言模型进行实验，先为诗歌生成高级叙事，再在这个框架下生成每一个词汇——就如人类思考的路径一样。

确实，这是一个宏伟的目标，但我们希望Deep-speare项目可以在将来达到这样的标准，就算不能变成真正的AI莎士比亚，那也要尽力成为莎士比亚在《情女怨》曾描述过的样子：

He had the dialect and different skill,

Catching all passions in his craft of will.