AI研究甲⻣⽂:五年的⼯作⼀天就做完了

作者: 沈知涵

来源: 果壳

发布日期: 2023-04-20 23:25:13

微软亚洲研究院的武智融研究员与⾸都师范⼤学甲⻣⽂研究中⼼的莫伯峰教授团队合作,利用人工智能技术开发了甲⻣⽂校重助⼿Diviner,旨在加速甲⻣⽂的校重工作。该算法通过自监督学习,能够高效识别和匹配甲⻣⽂拓本,显著提高了校重工作的效率和准确性,为甲⻣⽂研究提供了新的工具和方法。

4⽉20⽇,是联合国定下的“中⽂⽇”。每年的这⼀天,联合国都会举办各种中⽂推⼴活动,让世界各地的⼈都能体验中⽂的魅⼒。⽽中⽂的故事,还要从甲⻣⽂说起。甲⻣⽂是现存最早的⽂字,最早的甲⻣⽂可以追溯到春秋时代(约公元前1200年),它的发现将中国信史向上推进了约1000年,可以解读出⼤量珍贵信息。然⽽,甲⻣⽂研究是⼀项极度消耗⼈⼒的⼯作。

全世界⽬前已发现的殷商甲⻣⽂不到5000字,真正被释读出来的字数仅在1500-2000字之间。在“先秦史研究室”⽹站上,学者们会公布最新的甲⻣⽂较重、缀合结果,依靠⼈⼒,⼀年只能更新⼏⼗组。甲⻣⽂的整体研究⼯作往往被基础资料整理所困,推进困难。⾸都师范⼤学甲⻣⽂研究中⼼的莫伯峰教授团队,联合微软亚洲研究院武智融研究员,希望⽤⼈⼯智能找到甲⻣⽂难题的另⼀个解法。

1899年,⾦⽯学家王懿荣⽤⻰⻣熬药时,发现⻰⻣上刻着⼀些“符⽂”。因为对古⽂字颇有研究,他辨认这不是单纯的划痕,⽽是⼀种远古时期的⽂字,随即把它们收藏了起来。在殷墟甲⻣被科学挖掘以前,经历了多年的私⼈挖掘、倒卖,因此流散到了很多地⽅。从甲⻣⽂⾸次被发现⾄今,出⼟的甲⻣实物约有15万⽚。

这些甲⻣在不同的⼈⼿中流转,留下了多张拓本图像,这些对同⼀⽚甲⻣的不同拓本被称为“重⽚”,是解读甲⻣⽂的重要材料。不同时期的拓⽚,外观差距很⼤|微软亚研院。甲⻣重⽚数量繁多,质量参差不⻬,整理和校对重⽚成了⼀项重要的基础⼯作,被称作“校重”。多年来,校重依靠学者靠⾁眼和经验⼀⼀对照,费时费⼒。正如《甲⻣⽂合集补编》前⾔中所述:“这种对重、选⽚的⼯作,其烦琐、费⼯是局外⼈难以想象的。

”到了今天,⼤多数拓本图像已经数字化,⼀个新想法应运⽽⽣:⼈⼯智能是不是可以为校重⼯作加速?微软亚洲研究院的武智融⼀直在寻找⼀个好课题。毕业后,他专注于研究视觉⽅⾯的⾃监督模型,了解到甲⻣⽂研究的困境后,他感到豁然开朗:“甲⻣⽂既是⽂字,⼜是图像,⽐⼀般的多模态研究更有趣。”⼀开始,他想研究甲⻣⽂释读,但之后武智融发现,想要释读甲⻣⽂,就得先把较重⼯作做好。

在武智融看来,较重⼯作天然就适合机器来做。判断⼀张拓⽚是不是重复的,理论上需要把它和现存的重⽚都⽐对⼀遍。随着时间流逝,甲⻣不仅会模糊,还会破裂成⼩块,⼀些不完整的拓⽚让较重⼯作更难。B(局部)和A(整⽚)是重⽚,C(局部)和A(整⽚)是重⽚,不能断定B和C就⼀定是重⽚。这种情况下,基于全局特征来计算两张拓⽚相似度的办法就不奏效了。

于是武智融决定从局部下⼿:如果两张拓⽚的多个“点与点”之间能够精准地对应上,便能断定它们很⼤程度上为重⽚。尽管字迹模糊,但每个字的关键点仍然可以对应|微软亚研院。武智融训练了⼀套⾃监督学习的深度神经⽹络算法——甲⻣⽂校重助⼿Diviner。⾃监督学习与监督学习的区别,在于模型在训练时是否需要⼈⼯标注的标签信息。

所谓监督学习,是利⽤⼤量的标注数据来训练模型,使模型基于标记的输⼊和输出数据进⾏推理,⽽⾃监督学习是让模型⾃⼰来寻找规律进⾏分类。武智融先尝试⽤监督学习的⽅式训练,但发现这种⽅式并不适⽤甲⻣⽂校重。⾸先,重⽚的形状差异⼤,模型很快就被搞迷糊了,其次,监督学习需要⼈⼯标注⼤量的数据,⽽甲⻣⽂的数据没有那么多。

于是武智融决定把这个⼯作交给模型⾃⼰去解决:⼈类更擅⻓给出基于整体的、甚⾄主观“微妙”的判断,如果是循着规律的密集排查,机器的效率远在⼈之上。因为岁⽉的侵蚀和多次流转,甲⻣的不同拓本可能会有粗细之差,为了让模型学会⾃⼰寻找重⽚,武智融先⼈⼯模拟出⼀些甲⻣⽂可能发⽣的变化,例如变粗、变细、变模糊,为其加随机噪⾳和旋转。

通过这种⽅式让模型明⽩,不管是粗是细,只要关键点位能⼀⼀对应,就是同⼀个字,这样⼀来,模型的识别能⼒就不受拓⽚的清晰度、对⽐度、噪⾳、旋转等外界因素的影响。变粗变细变模糊,都是同⼀个字,对⼈类来说很简单的道理,机器却不⼀定学得会|微软亚研院。当然,基于局部匹配的⽅法能⾏得通还有很重要的⼀个原因:来⾃于同⼀块甲⻣的重⽚,⽂字⼤⼩是不会变动的。

武智融将每张拓⽚分割成能承载⾜够信息,⼜尽可能⼩的⽅格,哪怕重⽚是破碎的,也可以对应得上。新模型的⽐对效率甚⾄⾼于他的预期。将18万幅数字化拓本输⼊Diviner之后,模型发现了⼤量甲⻣重⽚,不仅复现了专家过去所发现的数万组重⽚,⽽且经过初步整理,已发现了三百多组未被前⼈发现的校重新成果。Diviner成果已经在对专家⼯作产⽣实质性的帮助。

Diviner新发现的重⽚,补⻬了⼀些没有拓全的拓本,⼀些时间久远字迹模糊的拓本也被清晰的重⽚替代。过去的很多疑惑都被解决了,专家们如获⾄宝。Diviner还可以直接帮助“缀合”。缀合的⽬的是将⼀些⽀离破碎的甲⻣,拼接成⼀个更完整的甲⻣,复原整⽚甲⻣的信息,有助于完整性地解读史料。⼈⼯对Diviner的结果再次验证,从反馈来看,Diviner的“查重”准确率能接近97%。

这将⿎励更多机构甚⾄个⼈将其私藏的甲⻣⽂拓本拿出⽐对,供学术界讨论研究。很多团队在尝试⽤⼈⼯智能技术帮助甲⻣⽂的研究、传播,他们有⼈做甲⻣⽂翻译,也有⼈做“认识甲⻣⽂”⼩程序,但还是那个⽼⽣常谈的问题,⼈机协作中,机器如何辅助好⼈类专家。武智融举了个例⼦。甲⻣⽂最初的⽬的是记录占⼘。占⼘者将⻳甲炙烤后,通过出现的裂纹的⻓短、粗细、隐现来判断吉凶、成败,并将占⼘的内容和结果刻在⼘兆的近处,即为⼘辞。

武智融和莫伯峰教授交流时才知道,⼘兆在拓⽚上是模糊不清的,判断⼘兆信息的位置⾼度依赖专家经验。⼈⼯智能能帮⼈类专家做数据、资料的恢复⼯作,但只有专家学者才知道“⼀是⼀横,⼆是两横,三是三横,四是四横,⼀横之差,看似相似度⾮常⾼,阐释出来的意义却全然不同”。⼈⼯智能技术如何才能对甲⻣⽂研究产⽣直接且具体的推动作⽤?随着Diviner项⽬的进程,他开始更好地理解这个议题。

Diviner还能有其他延伸⽤途吗?“有⼀次,同事开玩笑说,也许未来这套算法可能⽤于指纹识别,对刑侦有帮助也不错。”武智融笑了笑说。注:⽂章中⽤到的拓本来⾃四本甲⻣著录书。①《甲⻣⽂合集》②《甲⻣⽂合集补编》③《上海博物馆所藏甲⻣⽂字》④《殷虚书契续编》

UUID: 40849904-1ae5-4420-ab05-1ed4b77d24d4

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2023/果壳_2023-04-20_AI研究甲骨文:五年的工作一天就做完了.txt

是否为广告: 否

处理费用: 0.0089 元