《红楼梦》、《亨利八世》都是经典的文学名著,许多历史和研究都暗示这些名著有不止一位作者,但文学界对此众说纷纭无法给出定论。而最近,基于人工智能和数据科学的研究发现,则是从数据分析的维度上,去区分一部作品的具体作者。
对于《红楼梦》,普遍都认为是曹雪芹创作了前八十回,高鹗整理续写了后四十回,胡适、俞平伯、周汝昌等文学家也都赞同这一说法。但文学界也有很多不同的声音,包括鲁迅、林语堂、王国维、白先勇等多位大师都认为:全一百二十回都是曹雪芹一人完成。
早在1980年的首届国际《红楼梦》研讨会上,就有研究者使用计算机的统计方法,尝试找出它的实际作者。美国威斯康星州立大学的华裔学者陈炳藻先生,发布了一篇《从词汇上的统计论〈红楼梦〉的作者问题》的论文,引起了国际红学界的注意。
近年来就有一位工程师,利用简单的算法分析,去研究红楼梦的作者问题。他使用了Python工具,通过小说中用词的频率等特点进行了训练,以区分不同部分的风格问题。最终模型能够以95%的准确度来进行预测判断,从而侧证了前80回和后40回在算法模型中,具有很明显的写作风格差异,属于不同的作者。
和《红楼梦》一样,英国著名的戏剧文学《亨利八世》,也遇到了同样的问题,它被称为是莎士比亚的最后一部作品,但它的实际作者却可能不止一位。
布拉格捷克科学院的研究员普列查奇(PetrPlecháč),最近使用了机器学习技术,来识别《亨利八世》中的作者问题,并取得具有说服力的结果。他的成果被写成论文,传到了arXiv上。
在这项工作中,普莱查从数据科学的维度,确定了《亨利八世》每一部分究竟是出自谁的手笔,并且给出了具体的论据。最终,机器学习给出的作者划分,符合此前某一项主流研究的观点,并且还取得了一些突破。