近日,三位机器学习研究人员与一位文学学者共同组成的Deep-speare团队,使用在线图书馆谷登堡计划中大约2700首十四行诗(约36.7万个单词)来训练AI诗人。通过在培训数据库中搜寻诗歌,并一次又一次地尝试创建与示例匹配的诗歌,AI诗人最终在深度学习中学会了“创作”。
研究人员没有在程序中写入押韵词典、发音词典或其他资源,而是让Deep-speare独立学习与十四行诗写作有关的三个主要规则:节奏、韵律和自然的语言(单词流畅自然地组合在一起)。Deep-speare研究人员表示,他们的目的是了解深度学习可以将自然语言生成推进到何种程度,同时利用诗歌的有趣特质,研究人员想知道是否可以设计系统的创作体系,让Deep-speare自主学习这些模式。
在16世纪,英国诗人开始使用Iambic(五步抑扬格)作为诗歌格律,并发展出一种独特的十四行诗风格,其中十行诗具有规则的无重音节奏模式。一首十四行诗通常由三个呈现“问题”的四行诗节组成,然后是两行双韵,通常带有ABAB CDCD EFEF GG的押韵。这一类型的十四行诗主要有两个特点:长度为十四行诗,且有两部分的“论证”结构。由于莎士比亚频繁使用这种诗意形式,如今已称为莎士比亚十四行诗。
Deep-speare采用了三种自然语言处理模型:第一种通过评估单词的使用概率来选择每个单词,第二种检查每一行诗的节奏,第三种确保每一行诗都遵循韵律方案。例如在示例中,AI诗人选择了“ABBA”韵律,这意味着第一行诗节将与最后一行诗节押韵,而两个中间行的诗节互相押韵。
为了评估Deep-speare“创作”的诗歌质量,研究人员找来了两组评委,让他们区分诗人与AI创作的十四行诗。
第一组评委是亚马逊Mechanical Turk雇佣的众包工人,他们只会基本的英语,没有诗歌方面的专业知识。最终结果是,工人们以50%的准确率分辨出人类创作的诗歌和AI生成的诗歌。但这一数据可能虚高,因为工人们可能在网上对诗节进行搜索,诗人创作的诗歌会出现在搜索结果之中,AI生成的诗歌则不会出现。第二组评委是多伦多大学的文学助理教授亚当·哈蒙德(Adam Hammond)。
此次评审不涉及区分人类与机器的创作,而是对人机合写的十四行诗的韵律、节奏、可读性和情感影响等四大属性进行评分。哈蒙德对Deep-speare生成的诗句节奏和韵律给予了高度评价,甚至认为比人类的创作更胜一筹。哈蒙德得知Deep-speare是AI时并不感到惊讶,他解释称诗人常常为了取得某些效果而打破节奏与韵律的规则。但在可读性与引起情感共鸣方面,哈蒙德认为AI生成的十四行诗明显逊色很多。
文学专家可以轻易地分辨出Deep-speare“创作”的是哪些诗句。
几年前,微软小冰就通过深度学习,可以生成具有自我风格的诗歌。华为诺亚方舟实验室也推出过AI诗人“乐府”,唐诗宋词信手拈来。微软小冰深度学习几万首的诗歌作品仅需0.6分钟。在它学习到第10次时,生成的诗歌毫无意义,但当它学习到第500次时,生成的诗歌已变得通顺,再到1万次时,就能生成有其自我风格的诗歌。
而这种自我风格来源于微软小冰的自我认知,也就是它的记忆与知识。华为的AI诗人“乐府”则通过把训练使用的诗词序列化为格式化的文本序列,再通过对语言模型token的抽样,生成满足形式和内容要求的诗词,比如绝句、律诗、词,以及对联等。但这些AI诗人都在诗歌的可读性与引起情感共鸣方面表现欠佳。此外,十四行诗AI诗人Deep-speare在主题创作方面也存在一些局限。
人类诗人主要通过在脑海里构思出诗歌主题再展开叙事,不断揣摩恰当的词汇来抒发情感。虽然Deep-speare能够根据特定的主题(例如爱情或失去)来创作一首诗,但其语言模型的单词选择将受到限制。针对这方面的不足,AI诗人需要长期训练一个创作主题来增加诗句连贯性。研究人员也计划使用更多层次的语言模型进行深度学习,该模型能为诗歌首先生成高级叙事,再使用框架生成单个的单词。
总体而言,虽然人工智能可以通过自然语言模型生成具有一定可读性的诗歌,但正如文学专家所言,AI更擅长遵循韵律等固定规则,无法像人类诗人一样突破规则创作出有创造力的作品。此外,AI生成的诗歌并不具有文学价值,其情感影响力无法像人类创作的作品一样激发读者的共鸣。AI“创作“诗歌是人工智能的又一伟大尝试,但人类书写的文学作品中,浓烈的思想情感无可取代。