从武汉话转普通话谈起——用人工智能技术保护方言

作者: 赵广立

来源: 中国科学报

发布日期: 2020-03-20 08:49:36

本文介绍了讯飞输入法开发“武汉话转普通话”功能的过程及其背后的“方言保护计划”,探讨了利用人工智能技术保护和传承方言文化的重要性。

当援鄂医护人员面对病患用武汉本地话表述症状时,沟通效率难免大打折扣。瞄准这一痛点,2月21日,讯飞输入法紧急上线了“武汉话转普通话”功能。该功能不但能把病人所说的武汉话转为文字,还能以普通话自动播报,为医生迅速判断病情、对症治疗大开方便之门。

“从2月12日了解和瞄准这个需求,到上线这项功能,讯飞输入法团队前后开发的时间窗口不到10天。”讯飞输入法业务部总经理程坤在接受《中国科学报》专访时说,开发过程并不简单,武汉话不像粤语、东北话等使用人群广泛,在语料收集、医学专用语言训练等方面,都有不少挑战。

在医疗救助过程中,很多病患习惯说武汉话,尤其上年纪的老年人只会说方言,这让来自天南海北的医疗队有些犯愁。2月初,一个由多所高校发起的“战疫语言服务团”诞生,专门解决医患在沟通中的方言障碍。讯飞输入法团队也参与其中。

程坤告诉记者,对武汉话的识别和转换,讯飞输入法平台早已有些积累,但多为日常生活用语,难以满足医疗问诊场景下的深度对话交流。要满足条件,他们必须要尽快收集到足够多的医疗场景下的方言语料数据,然后通过专家标记让人工智能(AI)尽快“学习”这些表达。

“我们当时想了很多办法。一方面,通过讯飞在武汉的子公司发动人们收集医疗场景下的语料数据;另一方面,我们在线发布了一个众包任务,向熟稔武汉话的人们众筹他们的声音。”程坤说,就这样,讯飞输入法在最短的时间内搜集到了足够的语料。

根据众筹来的语料,加上讯飞与中国声谷共建的“中国方言库”已有的累积,科大讯飞研究人员很快对医用和日常对话场景进行标注,在短时间内完成了武汉话与普通话对齐音频。程坤表示,尽管武汉话转普通话的功能所覆盖的人群不似粤语等广泛,但上线该功能也得到了非常积极的反馈。

武汉话转普通话的功能,是人工智能用于方言识别的一个应用案例。在它的背后,是一项启动于2017年、名为“方言保护计划”的公益项目。“讯飞输入法推出‘方言保护计划’,就是希望用人工智能技术实现方言永久留存,同时服务于人们打破方言交流的障碍。”程坤对《中国科学报》说,“随着城镇化的加速,来自不同地区人们的交流日益加深,我们不希望方言文化在这个进程中慢慢消失。”

语言的流失速度可能远超人们想象。据联合国教科文组织数据,目前世界上的语言大约有6000~10000多种,而其中大部分语言或将于本世纪末消失。在我国130多种语言中,有半数(68种)语言的使用人口在万人以下,其中有48种使用人口在5000人以下、25种使用人口不足千人。

“如果不能有效保护方言,我们将永久失去完整记录人类文化遗产的机会。”程坤说,这也是“方言保护计划”的意义——该计划希望通过全民参与共建“中国方言库”的形式,利用人工智能加快推进方言保护,为世界留下多彩乡音。

程坤介绍说,现在已经有63万人上传了超过110万条与文字对应的方言发音,这也帮助科大讯飞实现了23种方言的识别和11种方言的语音合成,基本上覆盖了中国主要的方言地区,仅“基本覆盖”还远远不够。

“现阶段,一地不同的方言之间的个性化差异,很多情况下只能暂时以一定的鲁棒性将其划分为一种方言,我们希望通过方言保护计划,动员更多的力量做得更精细一些。”程坤说,这一方面需要不同方言的语料支持,另一方面需要更多语言文字研究者从规律上、语言本质上发掘不同方言之间的异同。

这意味着,相对于已完成的工作,未来方言保护将是一项巨大的系统工程。程坤告诉记者,希望更多高校和研究机构的研究学者、各地方言保护的社会团体、民间的语言爱好者以及广大方言使用者通过方言保护计划,形成一股方言保护的合力。

方言保护之后,如何进一步焕发生命力?程坤认为,利用人工智能不仅能够实现方言的永久留存,也为传承和发扬方言文化提供了更多可能。“我们可以把方言识别、合成等能力开放出来,让更多合作伙伴开发出各种方言智能语音产品,在解决方言用户沟通障碍的同时,打破场景限制,让其应用延伸至更多的文化娱乐领域。”程坤说,讯飞正逐步开放相关技术,供开发者调用。

“我们希望通过自己在方言保护做出的实际行动,呼吁更多的专家学者、方言爱好者、普通用户加入到方言保护计划中来,大家一起携手去传承、感受方言文化。”程坤说。

UUID: d79b8028-8a05-4960-988c-4680556f61a5

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中国科学报公众号-pdf2txt/2019-2020/中国科学报_2020-03-20_从武汉话转普通话谈起—— 用人工智能技术保护方言.txt

是否为广告: 否

处理费用: 0.0045 元