WantWords:反向词典如何拯救失语者

作者: 翁垟

来源: 果壳

发布日期: 2022-05-07 16:27:23

WantWords反向词典通过人工智能技术,帮助用户根据描述找到合适的词语,解决了现代人语言表达能力下降的问题。该工具通过分析词语的特征和人为添加的筛选条件,提高了词语推荐的准确性。随着技术的进步,机器在语言处理任务上的能力已经超过了人类平均水平。

在豆瓣文字失语者互助联盟,超过30万人在给自己的语言能力“举哑铃”。越来越多的人患上了这种时代病——不知如何将感受化为文字,或话到嘴边却发现词不达意、言不由衷。在厌倦了网络用语复读机似的轰炸之后,我们如何找回正常的语言表达?机器有答案。输入你想要表达的意思,就能获得对应的词语,名为WantWords(曾叫做“万词王”)的“反向词典”工具拯救了失语的人们。

输入“平静中有一点点开心的状态”,就会给出“怡然自得”、“恬然自足”、“泰然”这样的结果,也会让人偶遇一些生僻词汇,像是“塌心”、“姁”、“松范”、“逸豫”,也都表示心情安定愉悦。系统每次都会给出100个词语,背景色由深至浅,代表系统心目中这个词的接近程度。但通常,在前十个词里你就能找到自己想要的那一个(正式研究中,前十个词的命中率是75%)。每天,有两万多用户用它处理失语和词穷的困扰。

WantWords的运作原理跟人类的思维模式有些相像。当人类根据一个描述去猜词的时候,脑子里会经历一个怎样的过程呢?我们常常也不是一下就知道答案的,而是从多个方面,先去做推测。比如,“road where cars go very fast”,车在上面走得很快的路。乍一看,你可能不知道具体对应的是哪个词,但肯定知道这指向一个名词。

英文语境下,你会猜它大概包含way这个词素;中文的话,你会猜,这个词很可能包含“路”、“道”等字。这些信息拼贴在一起,就可以帮助你推断出,它可能是“expressway”、“快速路”、“高速公路”这样的词。当你在WantWords中输入一句话时,我们的模型也会经历一个这样的过程,先分析这句话都体现出词语的哪些特征:是形容词、名词、动词还是副词?它里面有哪些词素?再去找拥有对应特征的词。

在此之前,英文世界已经存在多部反向词典。它们背后的技术,是人工智能领域最主要的分支之一——自然语言处理(Natural Language Processing,NLP),一项旨在让机器理解和说出人类语言的技术。图灵奖得主,AI三巨头之一的Yoshua Bengio(约书亚·本吉奥)曾表示:能否将反向词典任务做好是衡量NLP模型学习能力的一个重要的指标。因为人类的语言表述是多样且复杂的。

如今,机器已经能在特定任务上做得很好,比如客服、问答,但如果你只是随便跟它说点什么,它可能就不太理解。而反向词典本质上就是通过随机的一句话,找到语义相近的一个词。显得机器很懂你。

为解决这些问题,就要去借助语料之外的东西了。于是我们就想到,可以人为地加上几层筛选条件,让机器更容易找到那个“正确的”词。除了词性、词素这两个词语本身具有的特征,我们还加入了两个人为规定的外部特征。一个叫“层次体系”。

这个系统会区分一个词是实体还是概念,实体下面又会分出各种各样的实体。另一个叫做“义原”。在语言学里,它被定义为语义的最小单位。词是语言学中最小的单位,但从语义上还可以再去拆分。比如“男孩”这个词,它的意思可以被分成“人类”、“男性”、“儿童”。义原能帮助机器更灵活地表达和理解一个词的意思。像“expressway”这个词,它其实有个义原,就是“道路”,还有一个义原是“快”。

这两个义原都能在原本的那一句话描述中找到相应的词语。这四个特征相当于在原本的结果上,又加了很多筛选条件。

WantWords反向词典的第一版产品最早在2019年就做出来了,主要由我和实验室的另一名同学张磊合作完成。在我们思考义原知识库的应用时,发现了这种可能,就去做了探索。这时看到国外有OneLook(英文反向词典)这样的产品,而国内并没有,就想着可以在研究的基础上做一个演示系统。

一开始真的是一点经验都没有,工程整个就是一塌糊涂。演示系统出来之后也没有做任何推广,只是身边的同学用完反馈说还不错。就这样一直放着,可能一天也才几百不到一千的访问量。直到去年11月的时候,突然被一家科技媒体在微博上推荐,一下子涌进来好多人——当时网站就崩溃了。因为没有人维护,我们也不看微博,崩了三四天都没发现。直到有一家做笔记工具的公司的人联系过来,想合作,我们才知道这件事。

我们当即对服务器进行扩容,同时我们想既然大家喜欢用,可以再去做一些改进,就开始做迭代,调试网页端的各种功能。其实都不是很大的更新,加起来可能最多一个月的工作量,但因为我们都有研究或者工作在身,进度比较慢。

其实,有的时候机器已经比人更会说话了。五年前,我选了自然语言处理作为自己的研究方向。当时这个方向当时还没有像现在这样热门,我心想等到毕业的时候,也许就正好起来了。结果确实如此。

尤其是GPT-3出现之后,它的应用给整个行业都带来很大的激励。也正是这个领域的飞速进步让我们的“反向词典”能够达到现在的效果。尽管如此,人们还是在不断探索,很多时候,这种探索会走在实际应用的前面。像WantWords,它在研究上的意义就远远大于目前作为一个应用系统的意义。我们老师一直都说,要做面向实际应用的研究。这个过程中会发现很多新的问题,比如查到的词不那么好,该怎么把一些无关的词去掉之类的。

我们在准备的一篇论文,就是围绕第二版反向词典,它使用的又是一套完全不同的原理架构。具体原理嘛,现在还不能透露。

UUID: 03561292-3007-4e3a-adc8-cd07592d6218

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2022/果壳_2022-05-07_想形容那个啥特别那什么,怎么个词来着?点进内文就有答案.txt

是否为广告: 否

处理费用: 0.0075 元