WantWords:反向词典的探索与应用

作者: 翁垟

来源: 果壳

发布日期: 2022-12-06 20:00:45

WantWords是一个反向词典工具,旨在帮助用户找到合适的词汇表达自己的感受。它通过分析用户输入的描述,提供相应的词语,解决了现代人表达困难的问题。该工具的开发者岂凡超介绍了其背后的技术原理,包括自然语言处理和词嵌入技术。WantWords自2019年推出以来,用户量迅速增长,成为了人们查找同义词、相关词和反义词的重要工具。

想形容那个啥特别那什么,怎么个词来着?点进内⽂就有答案。在⾖瓣⽂字失语者互助联盟,超过30万⼈在给⾃⼰的语⾔能⼒“举哑铃”。越来越多的⼈患上了这种时代病——不知如何将感受化为⽂字,或话到嘴边却发现词不达意、⾔不由衷。在厌倦了⽹络⽤语复读机似的轰炸之后,我们如何找回正常的语⾔表达?机器有答案。

输⼊你想要表达的意思,就能获得对应的词语,名为WantWords(曾叫做“万词王”)的“反向词典”工具拯救了失语的人们。系统每次都会给出100个词语,背景⾊由深⾄浅,代表系统⼼⽬中这个词的接近程度。但通常,在前⼗个词⾥你就能找到⾃⼰想要的那⼀个(正式研究中,前⼗个词的命中率是75%)。每天,有两万多⽤户⽤它处理失语和词穷的困扰。

它怎么能“猜”得这么准?

以下为这个反向词典系统开发者的讲解(岂凡超,清华⼤学计算机系博⼠⽣,主要研究⼈⼯智能和⾃然语⾔处理):WantWords的运作原理跟⼈类的思维模式有些相像。当⼈类根据⼀个描述去猜词的时候,脑⼦⾥会经历⼀个怎样的过程呢?我们常常也不是⼀下就知道答案的,而是从多个⽅⾯,先去做推测。这些信息拼贴在⼀起,就可以帮助你推断出,它可能是“expressway”、“快速路”、“高速公路”这样的词。

在此之前,英⽂世界已经存在多部反向词典。它们背后的技术,是⼈⼯智能领域最主要的分支之一——自然语言处理(Natural Language Processing,NLP),⼀项旨在让机器理解和说出⼈类语⾔的技术。2000年,Bengio提出了“词嵌⼊”(word embedding)技术,将⼈类语⾔转化为机器能够理解的“语言”,也就是数字(词向量)。

如今,机器已经能在特定任务上做得很好,⽐如客服、问答,但如果你只是随便跟它说点什么,它可能就不太理解。

为了解决这些问题,就要去借助语料之外的东西了。于是我们就想到,可以人为地加上⼏层筛选条件,让机器更容易找到那个“正确的”词。除了词性、词素这两个词语本身具有的特征,我们还加⼊了两个人为规定的外部特征。一个叫“层次体系”。另一个叫做“义原”。义原能帮助机器更灵活地表达和理解⼀个词的意思。我们使用的HowNet义原知识库从上世纪90年代就开始构建,至今已经是⼀个非常有特⾊的知识库。

WantWords反向词典的第⼀版产品最早在2019年就做出来了,主要由我和实验室的另⼀名同学张磊合作完成。我们发现了这种可能,就去做了探索。直到去年11⽉的时候,突然被⼀家科技媒体在微博上推荐,⼀下⼦涌进来好多⼈——当时网站就崩溃了。用户量放上来之后,很多⼈就在后台留言,说很喜欢这个产品。最开始有⼈提出愿意帮我们做小程序,后来愿意帮忙的人越来越多,到现在整个志愿者团队已经有13个人。

其实,有的时候机器已经比⼈更会说话了。尤其是GPT-3出现之后,它的应用给整个行业都带来很⼤的激励。现在这样的语料库很多,最⼤的包含上百亿个词语。我们希望将它打造成互联⽹最好用的查词工具,帮更多⼈解决词穷的问题。

UUID: c007a179-0500-4488-ab83-ac5bdf4a1579

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/果壳公众号-pdf2txt/2022/果壳_2022-12-06_想形容那个啥特别那什么,怎么个词来着?点进内文就有答案.txt

是否为广告: 否

处理费用: 0.0109 元