最近收到《自然》编辑Richard Van Noorden的邮件,他正在给Nature准备一篇有关数据共享的文章,给年轻科学家一些数据管理和共享方面的建议。他了解到我做了一些数据共享方面的工作,希望我能回答一些问题。下面把我们俩聊到的一些问题列出来,或许对一些人会有些帮助。
科学家应该让自己的数据尽可能地能够被检索和引用,这不仅对自己有益(比如增加数据及相关文章的引用),也有利于其他科学家重复利用数据。我首先推荐专门的、学术界公认的数据保存机构,如果该数据库能够为数据集提供可引用的对象(DOI,永久链接、数据遍号等)则更好。随着数据共享进程的快速发展,我认为越来越多的数据库将为数据集提供DOI。
除去将数据保存在专门的数据库,我还建议同行们能够将数据共享在本单位的数据库或者个人网页,例如可以提供指向他们数据集的DOI或永久链接,以及数据集的引证方式。
一些知名的数据保存机构,如GenBank(及INSDC的其他数据库)用于保存核酸和蛋白序列数据等,GBIF(全球生物多样性信息机构)用于保存物种分布数据,NOAA(美国国家海洋和大气局)的国家气候数据中心用于保存气候数据,Dryad用于保存生态和进化领域的数据集(主要是论文相关,没有格式限制),figshare用于保存任何类型的数据。
好的科技期刊一般也会为作者提供数据可用性(dataavailability)建议,比如:Nature journals: http://www.nature.com/authors/policies/availability.html; Science: http://www.sciencemag.org/site/feature/contribinfo/prep/gen_info.xhtml#dataavail; BioMed Central journals: http://www.biomedcentral.com/about/supportingdata;PLoS journals: http://www.plosone.org/static/policies.action#sharing。
一些研究领域也有它们特定的推荐。
我们做过的一项关于生物多样性数据共享的国际调查研究发现,仍然有很多研究者并不熟悉他们自己领域的数据保存机构(Huang et al, 2012, Conservation Letters 5: 399-406)。我建议年轻科学家们要多从年长的同行和期刊的作者指南等地方获得有关数据保存机构和他们领域内常规做法等信息。
我有关这方面的建议涉及数据共享流程的不同步骤。
首先,年轻科学家应该了解数据共享和数据可用性对于科学发展非常重要,这里有很多原因,比如研究的可重复性、数据整合分析、科研道德等。第二,他们应该了解自己的研究领域用到什么样的数据,常用的数据格式是什么;还应该熟悉相关的数据保存机构以及数据提交工具。
第三,在数据收集和管理过程中,要尽可能的使用标准数据格式、准备元数据描述、以及做好质量控制;还应该注意让数据集能够更容易与其他数据集整合(比如使用一些通用的数据项)。第四,当发表和共享数据时,需要了解期刊和数据库的政策和要求,并选择使用知名数据保存机构,提供元数据描述非常重要。为了让自己的数据集能够更好地被检索和引用,最好选择提供DOI的数据库。
另一件重要的事情是数据分享者有义务及时更新自己的数据集(如果有需要的话)。
是的,不同研究领域往往有自己的标准,并有特定的数据保存结构。但不同领域面临着相同的挑战,比如如何刺激科学家个体的共享意识和共享实践。除去特殊的政府驱动的项目(比如NASA),我认为遗传学(及相关领域)在数据共享方面比较领先。
比如,在遗传学、基因组学、生物医学、分子生物学、分子系统发育等领域,大多研究者都知道在发表论文时应该将核酸和蛋白质序列数据在GenBank(及其他INSDC数据库)共享。然而,虽然这些数据的共享在这些领域是一个基本要求,但仍然有很多研究者并没有将他们的数据共享出来,或者说,期刊的要求并不是那么严格。在其他研究领域,研究者的数据共享意识和实践可能更糟。
我认为这对于期刊和数据库将来采用联合数据保存政策,以及改进工作流程有重要的暗示。
我们的调查研究设计了特定的问题来了解资助机构和科学家的工作单位的政策对于数据共享的影响,虽然只有三分之一的科学家说他们单位或资助机构鼓励数据共享,我们的研究显示这些受到鼓励或政策要求的科学家更愿意共享。因此,资助机构可以通过提供有关数据管理的详细政策或指南来促进数据共享。
你可能知道美国国家科学基金会从2011年1月开始要求所有项目申请书中包含一个保证研究结果和原始数据传播和共享的数据管理计划。然而,有时候承诺并不等同于行动,恐怕几年后我们才能知道该政策的直接影响到底有多大。但毫无疑问,机构的引导在数据共享落后的国家或地区将非常重要。
数据共享很大程度上可以说是文化上的事情,既跟科学家个人意识有关,也跟机构的政策有关。在我所在的生物多样性领域,我认为很多方面数据共享文化并不发达,一些主要的生物多样性数据库或大型项目“自上而下”的运作模式有其局限性。对数据共享的重要性和挑战越多,我越觉得我们应该理解如何促进科学家个体的共享文化,毕竟研究者个体才是一个稳定的共享文化的培育者,因此“自下而上”的共享是极其重要的。