去年1月,91岁的遗传学家、诺贝尔奖获得者Oliver Smithies去世。Smithies是一位温和、谦逊的发明家。不过,只有他才会炫耀其最大的失败——一篇发表于1953年并且和测量渗透压相关的论文获得了“从未被引用过”的不光彩的殊荣。其实,这篇文章获得了比他意识到的更多的关注:在发表的10年间,有9篇文章引用了它。不过,Smithies的错误可以理解。
很多科学家对无人引用的研究持有错误印象,无论是关于此类研究的分量还是其对学术成就的影响。
在一篇1990年发表于《科学》杂志的颇具争议的论文中,一项广为流传的估测显示,超过半数的学术论文在发表的5年后仍未被引用。美国华盛顿大学信息科学家Jevin West表示,科学家真的很为这个问题烦心。毕竟,被引次数被普遍视为学术影响力的标准指标:一种不仅表明研究工作被人了解,还证明其对随后研究有帮助的标记。
研究人员担心,较高的未被引用率意味着一堆没用或者不相关的研究。事实上,未被引用的研究并非都是无用的。加拿大蒙特利尔大学信息科学家Vincent Larivière表示,更重要的是,未被引用的研究并非真的那么多。
文献中充斥着未被引用的研究?认为文献中充斥着未被引用的研究这一观点,要追溯至两篇分别在1990年和1991年发表于《科学》杂志的论文。
前一篇称,在1981~1985年发表的论文中,有55%在发表的5年间未被引用过。不过,这些分析具有误导性,主要原因在于它们统计的论文包括来信、更正、会议摘要和其他编辑素材等文件,而这些通常都不会被引用。如果将它们去掉仅留下研究论文和综述文章,未被引用率会大幅下降。
2008年,Larivière和同事重新审视了科学网(Web of Science),并且报告称,不仅未被引用率比此前认为的低,未被引用论文的比例几十年来也一直在下降。只将研究论文和综述计算在内的最新数据表明,在大多数学科中,未被引用的论文比例在发表后的5~10年内趋于平稳,尽管该比例在每个学科中都不同。对于所有发表于2006年的生物医学科学论文来说,时至今日仅有4%未被引用。
在化学领域,这一数据为8%;在物理学领域,该数据接近11%。同时,在工程和技术领域,2006年被科学网索引的论文中未被引用率为24%,比自然科学高很多。Larivière认为,这一较高的数据可能同此类论文的技术性相关,即工程技术类论文解决的是特定问题,而非为其他人的工作提供基石。对于整体的文献来说——科学网记录的从1900年到2015年底涉及全部学科的3900万篇研究论文,约21%尚未被引用。
不出所料,大多数未被引用的论文出现在鲜为人知的期刊上,同时几乎所有发表于知名期刊的论文都被引用过。
引文分析中的缺陷这些数据提供的只是局部画面。不过,填补文献研究方面的空白是一项不切实际的任务。光是分析少数论文就已经足够困难。例如,2012年,捷克布拉格查理大学生物学家Petr Heneberg决定分析科学网记录的13位诺贝尔奖获得者的数据,以便确定一篇听上去很荒谬的论文的真实性。
该论文宣称,在诺奖得主发表的研究中,约有10%是未被引用的。他对科学网进行的初次分析表明,该数字接近1.6%。随后,Heneberg利用谷歌学术进行了核实。他发现,在剩下的论文中,有很多实际上被科学网索引的其他研究工作引用,但因为数据输入错误或者论文中的错别字而未被统计在内。同时,还有一些期刊和书籍中的引用是从未被科学网索引的。
等到Heneberg放弃搜索时,即开始此项工作约20个小时后,他已将未被引用的比例缩减至原来的1/5,即0.3%。此类缺陷是人们无法得知从未被引用的论文数量的原因所在:在如此大规模的范围内重复Heneberg的手动核实方法将花费太长时间。同时,各学科在受这些缺陷的影响程度上也各不相同。例如,科学网的记录显示,2006年发表的65%的人文学科论文未被引用。
的确,很多人文学科文献未被引用,部分原因在于和自然科学相比,人文学科的最新研究较少依赖于此前累积的知识。但科学网并未准确反映该领域,因为它忽视了人文学科的很多期刊和书籍。同样的问题出现在各国之间的比较中。科学网显示,同在美国和欧洲撰写的论文相比,由中国、印度和俄罗斯的科学家撰写的论文更有可能被忽视。但该数据库并未追踪很多用地区语言出版的期刊。
Larivière表示,如果它们被考虑在内,这一差距将被缩小。他同时认为,尽管关于未被引用率绝对数据的警告一直不断,但科学网内未被引用率的下降显示出一种强劲的模式。网络让人们寻找和引用相关论文变得如此简单。同时,让论文可被公开获取的驱动因素可能也起到了一定作用。不过,Larivière警告说,不要对这一趋势进行过度解读。
他和其他人在一项2009年的研究中发现,未被引用率之所以正在下降,是因为科学家发表了更多的论文并且将更多参考文献“装进”他们的文章。来自荷兰莱登大学的文献计量学研究人员Ludo Waltman对此表示赞,“我不会将这些数据解读为更多的科学研究工作正在提供有用的用途”。
并非完全没有或许,一些研究人员仍然倾向于认为未被引用的论文是不相关研究。
毕竟,如果它们真的重要,甚至有一点点重要性,为何没有人提及它们呢?这种可能性是存在的,但并非总是如此。路易斯安那州立大学植物学家Michael MacRoberts表示,学术界人士受到远超其实际引用论文数的更多论文的影响。在一篇发表于2010年的关于引文分析缺点的文章中,MacRoberts引用了自己在1995年发表的关于在得克萨斯州发现点头石松的文章。
这是该论文第一次,也是唯一一次被引用,但文章里的信息已被植物地图册和大型在线数据库记录。利用这些数据库的学者正在依靠这篇以及上千篇和它一样的植物学论文。“这些所谓的未被引用论文中的信息正在被利用,只是文章本身未被引用。” MacRoberts解释说。与此同时,未被引用的文章仍在被阅读。2010年,纽约市健康和心理卫生局发表了一项研究,利用软件对基于唾液的艾滋病检测的缺陷进行了分析。
几年后,相关的检测工具已被诊所停用,尽管后来又被恢复。论文作者想利用诊所的经历作为个案研究,以便确定该软件能否在问题出现时被用于分析此类工具的性能。他们的论文被发表在《科学公共图书馆·综合》上,但从未被引用过。不过,目前在杜克大学全球卫生研究所任职的该文章共同作者之一Joe Egger介绍说,这篇文章已被查看1500多次,并且被下载了近500次。
“这篇文章的目的是改善公共卫生实践,而不是真的推动一个科学领域向前发展。”