龙泉寺贤超法师:用AI为古籍经书识别、断句、翻译

作者: 神经小兮

来源: HyperAI超神经

发布日期: 2021-01-17

龙泉寺的贤超法师利用人工智能技术对《大藏经》进行整理和校勘,实现了AI自动标点、文白翻译、古籍文字识别等技术实践,推动了佛学与新技术的结合。

来自最强科研寺庙龙泉寺的贤超法师,近年来一直在研究人工智能与文献古籍的融合。目前,他已带领的《大藏经》团队实现了AI自动标点、文白翻译、古籍文字识别等技术实践。

坐落在京郊凤凰岭脚下的龙泉寺,称得上全国甚至全球科研实力最强的佛教寺庙。凭借当年学诚法师的一句「佛教是古老的,但佛教徒是现代的」,推动了龙泉寺里的高僧们搞科研、写代码,将佛学与新技术结合,将项目大众化、国际化。成果不断,屡上热搜,被外界持续关注。

近期龙泉寺的贤超法师,参加了国内某技术大会,分享了使用人工智能对《大藏经》进行整理和校勘的技术实践。贤超法师原是北京大学物理学院凝聚态物理硕士,2007年他从北大毕业,2008年在龙泉寺皈依,此后一直致力于龙泉大藏经的编修与佛学义理研究。2016年,AlphaGo在战胜李世石的历史性事件,引起了贤超法师对AI的关注。从那时候起,他便开始尝试将AI和自己正在研究的OCR技术以及自动标点相结合。

龙泉寺在整理和校勘的《大藏经》为佛教经典的总集,也称为一切经。在汉传佛教的两千多年里,历朝历代都对《大藏经》进行了翻译、增补、修订。流传至今有数十个版本,少的有五千多字,多的有一亿两千万字。2012年,龙泉寺就着手整理《大藏经》,计划用整整十年的时间完成。因为传统方法对古籍的整理主要有版本校对、校勘、标点,这些步骤能够保证当代读者,也可以尽可能理解晦涩、生僻的经文。

为了降低人们阅读古文典籍的门槛,提高学者的工作效率,在近年来贤超法师团队,运用了包括深度学习、OCR在内的技术改变传统《大藏经》的解读方式,目前已经取得了颇为惊艳的效果。现代汉语中,句号、引号、书名号等常用标点近十种,古汉语中仅有的句号、顿号,经文中也很少出现,难以阅读。

贤超法师介绍道,所谓自动标点,是指在没有人工干预的前提下,根据算法给古籍文本自动标注现代中文标点的技术,这主要是为了方便现代读者阅读。

自动标点,在NLP领域来说,就是一个简单的序列标注问题。解决这类问题的标准方法,就是使用循环神经网络(RNN)。为了增强RNN的性能,在此基础上又发展出来了双向RNN,也就是每一时刻的输出不仅仅取决于之前时刻的所有输入,而是同时取决于之前和之后的输入。

之后,贤超法师团队又将LSTM方法引入。但是此前基于这些技术所实现的自动标点,效果仍不是很令人满意。贤超法师团队之所以达到出乎意料的效果,是因为他们在此前的基础上,引入了ResNet残差网络(Residual network)。

除了自动标点,贤超法师还将AI应用古籍研究的多个方面。文白对句,也就是古文到现代文的对齐和翻译。

为了实现AI文白对句,贤超法师首先构建了一个文白对齐的语料库,然后设计了一个对齐算法,取得了很好的效果。将《大藏经》翻译并单句分离开对齐有助于人工后期检索与校对。由于《大藏经》专业名词众多,且历代翻译著作语料繁杂,因此并非古文相关专业就能搞定。《大藏经》的总字数以亿计,如果仅依靠有限的几位专家,工作量将十分巨大,所以,AI的介入,为专家们分担了不少工作量。

目前市面上的OCR软件都是针对印刷体的,因此不能很好地识别古籍文献中的字体。贤超法师及其合作团队,基于CNN+LSTM+CTC框架,开发了新的OCR引擎。然后基于《大藏经(高丽版)》的七万多张整图,168万条文本行图像的数据集进行训练。基于弱监督学习的精确文字分割最终,其开发的OCR方法能够进行古籍的单字识别、单列识别和半自动的多列识别,能够有效地完成各类古籍的电子化工作。

佛法与科技,距离并不遥远。科技与佛学的融合中佳作频出,吸引关注。龙泉寺的另一位知名高僧、IT禅修营的创办者贤信法师,在一次访谈里被提问佛法和科技的关系。他回答:「科技,是追求物质世界的真。佛法,是内心世界的真。很多在科学上做出探索、在技术上做出探索的人,最开始是抱着想为人类做贡献的心,跟佛教提出最慈悲的追求也是相共的,这就是科技与佛法的共同点。」

UUID: 618bcdd4-8a12-4629-b003-ee8db4e332c3

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/学术头条公众号-pdf2txt/学术头条2021年/2021-01-17_龙泉寺贤超法师:用AI为古籍经书识别、断句、翻译.txt

是否为广告: 否

处理费用: 0.0057 元