当海洋学家Peter Wiebe近期打算写一篇今年1月乘船去红海的文章时,他想检索这一地区所有浮游生物的数据。他知道其他研究人员多年来已经在积累相关有机物样本,但有个问题:他不知道在哪里可以找到这些资料。这种局面很快将改变。
Wiebe正在和一组计算机学家一起工作,为智能学术搜索引擎奠定基础,该引擎将帮助地球学家眨眼间找到他们想要的确切数据集和出版物,而不是花费数小时在谷歌学术网上逐页翻寻毫不相关的文章。未来两年,Wiebe与同事将建立可以从AGU会议摘要、NSF奖以及地球科学数据库提取数据的计算机程序,然后通过数字化方式把这些资源相互连接,使科学家更容易获取相关数据。
类似GeoLink的项目是科学界通过利用计算机不断增加的文献处理能力让文献回顾更加有效的一部分工作,随着每年出现数以百万计的新论文,这一服务功能的必要性越来越迫切。现有学术搜索引擎以广泛覆盖科学文献而著称。然而,它们需要依赖关键词搜索,这意味着用户搜到的垃圾信息往往远超有价值的信息。而且这些搜索引擎通常也不能还原原始数据集。
相比较而言,GeoLink和Semantic Scholar试图建立迎合专业领域需求的精细分类搜索引擎,通过帮助计算机在出版物之间建立科学有效的联系,挖掘更深的语义处理信息。谷歌也使用了类似技术提升其主要搜索引擎,但是诸如GeoLink这样的项目得益于在某个领域具有广泛知识的研究人员输入的资料,科学家会区别出有效的连接,然后计算机学家把它们转化成代码。
生物医药研究人员在建立细化、分科的专用引擎方面一直走在前沿。比如,PubMed就利用其“医学主标题”(MSH)引擎简化其查询系统。宾夕法尼亚州立大学计算机学家C. Lee Giles表示,这些项目的潜力远远超过帮助科学家迅速找到需要的论文。通过从论文中提取信息并把这些数据合并在一起,类似Semantic Scholar这样的搜索引擎还可以操作文献评议与对比过程。
丹麦哥本哈根大学计算机学家Christina Lioma说,这样的即时概括能力尤其将惠及那些刚进入一个新研究领域的青年科学家和跨学科研究人员。Giles表示,它还可以让科学家分辨出某一领域出现的科学趋势,并以此为依据调整研究方向。然而,挖掘这项技术的潜力部分还要依赖可供计算机阅读的可采集到的文本,这使得学者和出版商处于竞争对立面。目前,GeoLink项目只能采集可以公开获取的研究摘要。
(Semantic Scholar会覆盖400万篇可以公开获取的计算机领域的科学论文。)Giles表示,目前,科学家仍须做大量工作提高文本处理的准确性。然而,他相信语义搜索方法代表着“未来网络”。