在最流行的在线百科网站上,引用数最多的有DOI号的文章主要以基因集和天文研究为主。维基百科引用最多的期刊文章涉及月球坑的名字,以及人类和小鼠基因的DNA序列。许多最受欢迎的文章在维基百科上的引用数比其在科学文献中的引用数还要多。
维基百科是世界上访问量第五大的网站。“令人难以置信的是,引用数最多的文章几乎全都是科学论文。”纽约的数据科学家、图书馆员Matt Miller说。Miller分析了负责运营维基百科的旧金山非营利组织维基媒体基金会在三月发布的引用数据,其中包含了约1570万条数据记录,显示了在维基百科近300个不同语言版本中,拥有正式编号的各种来源被引用了多少次。
维基媒体基金会注意到,维基百科中通过正式编号引用的大部分都是书籍,但是Miller特别观察了英语维基百科通过DOI——这是期刊文章最常用的编号——引用的文章数目。他分析了120万条带有DOI的引用,其中包含了83.5万余篇不同的文章。
引用最多的论文在英语维基百科上总共被引用了4702次,是2002年一篇收集了超过15000个人类和小鼠基因序列的论文。引用该论文的维基页面几乎全是关于单个基因或蛋白质的页面。“是个意外的惊喜。”癌症研究人员Robert Strausberg说。他是原论文的项目负责人,目前任纽约市路德维希癌症研究所科学副主任。
在英语维基百科上有DOI号的引用文章中,引用次数排名前十的分别是:4702次引用:《超过15000个人类和小鼠全长cDNA序列的生成和初步分析》(2002);3387次引用:《NIH全长cDNA计划的现状、质量和扩展:哺乳动物基因收集项目》(2004);2895次引用:《依巴谷卫星新数据规约的验证》(2007);2212次引用:《21243个全长人类cDNA的完整测序和表征》(2004);1452次引用:《国际天文联合会第17工作组关于月球体系命名法的报告》(1971);1297次引用:《寡核苷酸帽法:用寡聚核糖核苷酸替代真核mRNA的末端的一种简单方法》(1994);1294次引用:《构建人类蛋白质间交互网络的蛋白质组级图谱》(2005);1251次引用:《侧重全长和侧重5’末端的cDNA库的构建与表征》(1997);931次引用:《Pan-STARRS PS1观测到的250000颗小行星的绝对星等和斜率参数——初步结果》(2015);878次引用:《关于分光光度法分类小行星的NEOWISE研究:初步结果》(2011)。
2004年发表的一篇扩展版的基因集文章是引用数第二多的,共引用了约3400次。该论文的共同作者之一、美国国家癌症中心的癌症遗传学家Daniela Gerhard说,这篇文章被引用了这么多次可能是因为它提供了可获取的有关表达基因序列的信息。
总而言之,前十名中有五篇文章是关于DNA目录的,其中包括了一篇详细描述如何生成这种库的研究。2005年的一篇包含了将近3000种人类蛋白质互作的图谱也位居前列,排名第七。其余四篇均为天文学文章。英语维基引用数第三多的有将近3000次引用,是2007年的一篇帮助研究者解读依巴谷卫星数据的文章。依巴谷卫星是第一个测量恒星位置、距离和亮度的太空计划。
另外几篇空间科学论文涉及小行星的尺寸和亮度,以及月球坑的名字。依巴谷卫星一文的作者、英国剑桥大学的天文学家Floor van Leeuwen说,这些文章的引用次数多,是因为很多天体有着单独的维基页面,而这些论文是非常可靠的引用源。
2001年建立的维基百科每个月有160亿次访问量,目前是世界上访问量第五大的网站。所有人都可以新建文章或编辑已有的文章,但是网站的规章要求作者和编者必须为引用的文字和信息标注已发表的文章来源,例如书籍和学术论文。
伦敦慈善机构阿卡迪亚基金会的开放获取项目总监Ross Mounce对维基媒体的数据进行了独立分析,得到了全语种维基百科中引用次数最多的10篇带DOI号的文章。其中6篇是一样的,但是排名第一的完全不同。引用数最多的是一篇2007年的论文,它更新了已有百年历史的全球气候分类法。这篇文章有280万引用数——但是英语维基中只有169次引用。
这篇气候研究被引用这么多次是因为有几百万次引用都来源于程序自动生成的页面。根据维基百科的数据显示,截至2014年7月,瑞典达拉纳大学的物理学家Sverker Johansson所写的这个爬虫软件生成了将近300万篇文章。其中三分之一是瑞典语,其余的则是两种菲律宾语言——宿务语和瓦瑞语。
Johansson表示,该爬虫生成了数百万篇关于城镇或岛屿的地理位置的文章,而大多数文章都包含当地的气候类别,因此会引用上述气候研究。他补充说,他不知道爬虫自动生成了多少次这篇论文的引用,“不过280万听起来差不多。”
在全语种维基百科上有DOI号的引用文章中,引用次数排名前十的分别是:2830341次引用:《柯本-盖革气候分类法下的更新版世界地图》(2007);21350次引用:《使用碎片法预测有机小分子的疏水(亲脂)性:aLogP和cLogP法的分析》(1998);20247次引用:《NIH全长cDNA计划的现状、质量和扩展:哺乳动物基因收集项目》(2004);5937次引用:《超过15000个人类和小鼠全长cDNA序列的生成和初步分析》(2002);5854次引用:《Asiago超新星目录——10年之后》(1999);2895次引用:《依巴谷卫星新数据规约的验证》(2007);4450次引用:《小行星带的太初激发和清除》(2001);3062次引用:《国际天文联合会第17工作组关于月球体系命名法的报告》(1971);2587次引用:《21243个全长人类cDNA的完整测序和表征》(2004);2525次引用:《固态行星级天体的分类》。
Mounce补充说,其他文章可能在维基百科上有很多次引用,但没有正式标注DOI号,即通过其他手段引用,例如PubMed的ID码。加州大学数据管理中心馆长John Chodacki说,为了让人们能够信任信息,引用非常重要。“不光对期刊文章如此,对维基百科页面也是如此。”他说。但是此前必须通过付费服务才能分析和比较学术文章的引用数据,“最有趣的是,现在这份数据所有人都能拿到。”