搜索新时代,你准备好了吗?
人们每天都在通过计算机或智能手机等搜索各种各样的信息,搜索已经成了我们生活的一部分。你有没有想过,搜索是如何实现的?未来的搜索又会是什么样?《科学世界》专访微软亚洲研究院常务副院长马维英博士,共同展望了搜索技术的新趋势。
马维英,微软亚洲研究院常务副院长。带领研究团队从事互联网搜索和数据挖掘、自然语言计算以及人机交互等领域的研究工作,已有大量核心技术转化进微软搜索和在线服务产品中。在互联网搜索、信息检索、基于内容的图像检索、数据挖掘、自适应内容传输和移动访问等领域发表了250余篇论文。目前还担任ACM信息系统学刊(TOIS)和ACM/Springer多媒体系统学报的编委。
您认为搜索的本质是什么?
马维英:说到搜索的本质,让我们先回过头来看看搜索引擎是怎么工作的。现在的学生大概很少用到图书馆的索引卡片了。在我当学生的时候,到图书馆里面找一本书、一本杂志或一篇文章,通常会通过标题或作者姓名去检索。图书馆里会有一个个卡片目录,也就是一个个索引表。这种表称为倒排表,也就是根据属性(例如标题、姓名等关键词),反过来去找到这篇文章或这本书。
其实搜索引擎就是建立类似于索引表的系统,用许多的信号和文本特征向量来做相关性排序。信息检索是一个已经研究了多年的领域,但是一直到有了搜索引擎才有突破。这有几个原因,最重要的还是机器学习。计算机做很多事情,包括搜索、机器学习,其实都需要利用有用的信号,特别是由人监督指导所得到的信息。网络出现之后,为搜索提供了两个非常重要的信号来学习相关性排序。第一个就是锚文本(anchor text)。
在互联网中有很多超链接(hyperlink),一个网页可以通过一个超链接指向另外一个网页,网页中描述这些链接的文本,也就是我们在网页中看到的那些可以点击的文字,就是锚文本。以前在纸上是没有办法这样直接链接到另一个地方的。锚文本其实就是指向另外那个网页的最好的简介、描述。也就是说,那个网页要用一句话或者几个关键字来描述的话,那么锚文本就是最好的描述。
现在,有无数的人在网络上创造这些锚文本,而不仅仅是图书馆的编目人员在考虑某个文献应该用什么关键字来描述。以前没有互联网,没有办法创造出这么庞大的关于网页标注或者信息标注的数据。这些信息也是大数据,是很重要的数据。第二个重要信号是指,搜索引擎一旦开始运行之后,人就与它出现了互动,会产生反馈信息。用户不断地输入关键词进行搜索,之后又会点击搜索引擎给出的相关网页,这是一个很庞大的反馈回路。
这些信号就可以被拿回来帮助我们去了解用户的需求,也就是应该链接到哪里。一方是网络作者(web author),一方是网络用户(web user),他们通过搜索引擎产生了大量的训练数据(training data)。有了这些数据,计算机就可以通过学习给出更好的信息检索结果。
那么搜索结果是如何排序的?
马维英:文档排列(ranking document)的问题,其实就是从海量的数据里大海捞针,一层一层地捞,或者说是一个多次过滤的过程。对于一个查询,最初可能得到多达几百万个结果,先进行第一级过滤,也就是用一些简单的特征向量等把一大批无关的东西滤掉,从几百万个减少到几千个。再进行第二级过滤,用一些相对比较复杂的特征来过滤。
最后再做一些更复杂的过滤,比如做重新排序,再按领域如医疗、购物等进行垂直搜索,到最后筛选出来的结果就只剩几百个了,这使得人们可以进一步浏览并找到所需的网页。
除了语言,搜索引擎如何处理图像?马维英:当然我们也做图像搜索。当你把图像也变成交流的内容,就可以通过交互拿到更多的训练数据。有时候搜索给出的答案不对,用户就会反馈,比如图中的狗不是这个品种,你说错了。
更多的用户反馈数据,能够让我们做出更好的图像识别。最近,微软语音智能助理小冰发布了新的图像聊天功能。原来我们只是单纯告诉机器这张图片里面有什么,而藉由聊天互动,机器可以知道人们看到这张图会怎么反应。发布会的时候有一个例子,一位用户发了一张天津爆炸现场的照片,其他什么都没有说。小冰的回复是:你住在天津的哪个位置?
就是说小冰多了一步,先知道你这个照片是什么内容,然后直接根据内容说出下一句,就像人聊天一样。