在刑侦探案的影视剧里,经常能看到有“笔迹鉴定专家”的出现,这些人会通过现场留下的字迹,来初步判定一个人的身份、年龄、心态。现在通过 AI 手段就可以直接判定出,写作人的国籍身份,从而免去了更多调查取证的工作。
在 20 世纪 80 年代,一个所谓的纳粹收藏家带着 60 本“希特勒日记”来到了德国的一家出版社。该出版社花费 230 万美元买下了这些日记,并把转载权卖给了多家外国报社。
其中《泰晤士报》邀请了多名专家,以一份希特勒的手稿为样本,进行了笔记鉴定,专家们得出的结论是:真的!这就是希特勒的字迹!不过随后的紫外线检测中发现,这套日记的纸张中,出现了一种特殊的配料,而这种配料其实在 1954 年才开始使用。这套日记肯定是伪造的了,那么专家对于笔迹鉴定的结果也都错了吗?其实也没有,最后调查中发现,因为那些用于对比的真实数据集,也就是所谓“手稿”。其实也是那个骗子收藏家伪造的。
笔迹是一种能反映本人特有的书写动作习惯的一种特殊痕迹。而笔迹鉴定,则是通过对两部分或多部分笔记之间的比较鉴别,来判断是否为同一人所写。笔迹鉴定也常用于处理一些艺术品、合同书、遗嘱之类的纠纷,现在通过 AI 手段就能直接进行笔迹鉴定确认其国籍。
通过该算法,AI 可以对一个人的手写英文文本进行分析,从而确定其国籍。
目前该技术仅能判断参与人员的国籍是否属于马来西亚、伊朗、中国、孟加拉国和印度这五个国家。研究人员选择了 100 位来自这些国家的人作为实验对象,让他们手写一篇 500 行的英文文章,以此作为机器学习的数据集。通过名为“Cloud Of Line Distribution(译作线分布云,简称 COLD)”的工具,研究人员可以将每个字母分解成线条,通过测量线条的直线度或弯曲度来判断他们的国籍。
实验证明,COLD 能很好地兼容机器学习算法。在确定国籍方面,比现有的大部分方法都要有效,对部分国家的预测准确率甚至提高了一倍不止。不同国家的写字习惯,是 COLD 能够判断国籍的关键。比如中国人习惯写方块字,在手写过程中会用更直的线条书写英文字母,而印度人习惯带有曲线的书写手法,因此在字母拼写时会有更多曲线部分。
COLD 是一种专门用于文本分析的工具,除了应用在字迹分析上,还被广泛运用于视频、车牌图像等领域的任意文本检测。该方法能够对文本特征进行分析,然后基于随机森林对文本进行归类,并在相应的极坐标域中生成密集的点。这些点并非随机分布,而是无限靠近与之相似度最大的国家。
所以,随着字符分布的变化,国民分布也会发生变化,只要数据足够丰富,就能很容易的通过 SVM(Support Vector Machine)得出结论。
此前,很少听到有关于字迹分析的研究,可能是没有确定它的应用场景。不过,来自中国、印度和马来西亚的研究人员认为,这项技术有利于警方进行犯罪调查,而且比一般的图像识别技术更有效。
传统司法鉴定方式其实,警方已经在很多调查领域使用生物识别技术,人脸识别就是最常用的办法之一。而字迹识别的出现,也将在一定程度上成为该技术的有力补充。不过,这项技术目前尚处于实验阶段,能否进入实际场景,还有待考量。就像大多数生物识别技术一样,字迹识别同样面临一些由这类技术或类似技术带来的隐私或民权问题。另外,如何保证用于机器学习的数据,不会因偏见做出错误的决策,也是一个亟待解决的问题。