维基百科作为任何人都可以编辑的在线百科全书,需要大量的志愿者编辑花费大量时间精力来让每一个词条保持最新。不久前,麻省理工学院的研究人员推出了一种新的 AI 系统,该系统可用于自动更新在线百科全书中的任何不准确之处,从而为人类编辑们提供帮助。
麻省理工学院计算机科学和 AI 实验的博士生 Darsh Shah 说道,“维基百科的文章需要不断更新,因此需要数百人来修改每篇文章,而 AI 可以自动完成修改,这极大提高了效率。”研究人员提出了一种文本系统,该系统可精确定位并替换相关维基百科句子中的特定信息,同时使用类似于人类的书写和编辑方式的语言。
此前也存在许多其他可以自动进行维基百科编辑的机器人,但 Shah 说道,“这些工具更多的是基于规则,将一些狭义的信息放入预定义的模版中,然而编辑的任务更多的是需要对两个句子中相互矛盾的部分进行推理,然后生成连贯的文本句子。研究人员的模型解决了这个问题,通过输入一条非结构化的信息,模型以人性化的方式自动修改句子。
” AI 识别矛盾信息识别两个单独的句子之间的矛盾信息,并将它们融合在一起,这对于人类而言是一项十分容易的任务,但对于机器学习而言却是一项新颖的任务。
该模型是事实检查分类器,预先将每个句子对标记为“同意”、“不同意”或“中立”,重点关注“不同意”的句子对。与分类器一起运行的是一个自定义的“中性屏蔽器”模块,该模块可识别过时句子中的哪些词与声明中的句子相矛盾。
它在过时的句子上创建了一个二进制“掩码”,其中 0 放在最有可能需要删除的单词上,而 1 放在保留的单词上。屏蔽之后,在过时的句子处使用两个编码器 - 解码器框架,对需要删除的单词(用 0 覆盖的单词)结合不同的信息来融合填补。
研究人员希望未来 AI 能够自动完成整个过程,也就意味着它可以在网上搜索某个相关主题的最新新闻,并替换文本,自动化更新维基百科上过时的信息。该研究还表明,当训练“假新闻”的检测器时,该系统可用于增强数据集,以消除偏见。“假新闻”是一种包含虚假信息的宣传方式,旨在博人眼球,误导读者或是引导公众舆论。这些部分检测器在同意 - 不同意对的数据集上进行训练,匹配给定的证据来验证真假新闻。
早在 2015 年,维基百科就构建了一个人工智能引擎,旨在自动分析维基百科的更改。由于任何人都可以编辑维基百科,那么任何人都可以错误地添加虚假信息,破坏站点,所以最早的维基百科建立了严格的筛选制度,阻止了很多人加入维基百科的编辑行列。Halfaker 是维基百科的资深研究科学家,他建立了自己的 AI 引擎来识别这种破坏行为,以更友好的方式提高新手的参与度。
机器越来越智能,机器自动化替代人类工作也越来越普遍,人类是否会被机器替代也是当下的热点话题。有人预测 AI 和机器人技术将在未来 20 年内取代我们多达 47% 的工作,但同时也有人认为 AI 将创造大量新工作。未来的事谁都说不准,我们唯一能做的是把握当下。