在大气、海洋等研究领域,中国普遍缺乏拿得出手的高质量数据。问题出在了哪里?
谈到IPCC报告里鲜有来自中国的数据时,A学者不无感慨地告诉《知识分子》。在最新发布的IPCC第六次评估报告中,列出了报告使用的所有数据产品,总共有283套,其中,中国贡献的只有9套(含中国香港、中国台湾),不仅数量少,且绝大部分是区域数据产品。
在气候变化领域,中国缺乏国际上拿得出手的高质量数据,事实上,这也是中国科学数据普遍贫弱的一个缩影。
相比国外,中国的某些科学数据很难拿到,可让一般人想不到的是,国内难拿到的数据,反而很容易从国外拿。例如,个人以普通用户的身份登陆主流的气象数据网站进行条目搜索,在中国气象数据网,可选择的地面逐小时观测资料被限定在七天之内;而在美国国家海洋和大气管理局NOAA的数据网站,各个站点的各项气象数据非常完备,无须注册,个人用户就可以下载到详细的气象数据,以基本的地表温度数据为例,最早可追溯至1951年。
早在2016年4月发表的《公共数据不开放共享,中国就要落后》的文章中,北京大学教授陈松蹊就谈过他研究雾霾的尴尬经历——北京气象局的历史数据需要花钱买,据说“每小时只是几块钱,不贵的”。无奈之下,他们从美国一家气象研究机构的网站上找到了北京南郊观象台每半小时的气象数据,免费。
他们认为,由于高质量的传感器是被全国各个不同团体占有,而空气污染的分析需要来自每个区域内多个站点的高质量数据,只有克服数据共享和合作的障碍才能更好地管理和减少中国的空气污染;而且,如果只用有限的数据,还可能得到错误的结论——比如在理解臭氧空洞时,最初很多科学家和决策者不相信氯氟烃假说,但通过收集了不同范围、各个平台的数据后,这个假说得到了验证。
在海洋研究领域,中国通过数据共享贡献给国际同行的也很少。海洋观测领域颇为知名的Argo计划,通过全球30多个国家的合作来维持一个全球海洋的观测网络,该计划强制要求所有的参与方,必须把测出来的数据共享给国际,其中中国的数据贡献少的可怜,大概不到4%。
今年8月5日,国家青藏高原科学数据中心主任李新等人在《自然-地球科学》发表评论文章,呼吁数据共享。作者们在政策、管理、技术、国际化四个层面提出了具体的建议。在政策层面,他们指出,应该进一步明确敏感数据及其使用界线。
2018年,国务院办公厅印发的《科学数据管理办法》,共19处提到共享,其中第19条规定,“政府预算资金资助形成的科学数据应当按照开放为常态、不开放为例外的原则,由主管部门组织编制科学数据资源目录,有关目录和数据应及时接入国家数据共享交换平台,面向社会和相关部门开放共享,畅通科学数据军民共享渠道。国家法律法规有特殊规定的除外。”
2019年,国家海洋科学数据中心、国家青藏高原科学数据中心、国家人口健康科学数据中心、国家天文科学数据中心等第一批20个国家数据中心上线。
在美国,这些机构也是属于典型的业务部门,因为美国联邦相关的法律规定,这些部委对于数据开放和共享的认识、共识等要比较深入,所以数据开放,彻底和免费的程度等还是非常高的。
除了“公开”“免费”的好处,这些机构的数据之所以有吸引力,还有两个特点:首先,具备长时间的特征,比如有长达几十年的地表环境变化研究或者全球变化研究的数据;其次,数据的一致性等方面质量较高。
这方面知名的一个例证是USGS的Landsat项目。该项目从1972年开始已经发射了8颗系列陆地观测卫星,是目前为止地球持续观测时间最长的一个卫星系列。美国政府通常免费提供由政府资助的地球观测卫星获得的图像,而Landsat此前是个例外,直到2008年USGS通过互联网免费提供了Landsat数据。
Zhe Zhu等人的研究指出,“随之而来的是Landsat图像下载量的大幅增加,并导致科学和业务应用程序的迅速扩展,为政府、私营部门和民间社会提供服务。Landsat计划因此为世界各地的航天机构提供了一个关于开放获取地球观测数据的价值的例子,并刺激了全球,包括欧洲的哥白尼计划,采取了类似的政策。”
不仅是数据的开放,开放的思维也贯彻在整个数据中心的建设上,比如充分利用“外脑”。NASA就有这方面的例子——马里兰大学,因为地域的原因,开车几十分钟就可以到达戈达德太空飞行中心,该校很多老师是NASA数据卫星的科学团队成员。
相比国外这些较为成熟的数据政策、体制机制,制约中国科学数据发展的核心还在于专业人才的缺乏以及不合理的评价体制。
图灵奖得主Jim Gray在2007年加州山景城召开的一次会议上,发表演讲“第四范式,数据密集型的科学发现”,提出今天的科学已经进化到可以是数据驱动的发现。从涉及到地球各个圈层的气候变化研究,到关系到人类健康的遗传基因组、蛋白组、临床试验,数据成为了必不可少的创新源泉和力量,再没有什么时候比重视数据基础建设和共享更迫切的了。中国在数据方面的基本功建设依然任重道远。