2014年3月,北京大学教授陈松蹊在雾霾弥漫的一天,产生分析环境数据的想法。然而当研究工作推进时,他们向环保部门申请共享PM2.5历史数据无果,却拿到了美国大使馆的监测数据,大喜!当他们进而向气象部门申请获得气象数据时却被告知需要付费20多万元,几周后,他们发现美国气象研究机构的网站上有北京南郊观象台每半小时的气象数据,免费!
课题组成员不解:“用纳税人的钱建立的公共部门,用纳税人的钱以公共服务名义购置的仪器,所收集的数据,出于保密需要不公开也就罢了。现在居然标价出售,而且价格不菲……”陈松蹊那天睡不着了。他写下了课题组的这段经历,呼吁共享基本的公共数据,使各研究机构、企业能及时无偿获取、分析这些数据,对提高一个国家的实力至关重要。
都说数据是新的“石油”,如果不能做到基本公共数据的社会共享,中国对大数据的利用恐怕在起跑线上就落后了。
三月初在一雾霾弥漫京城之日,突生一分析环境数据的想法。作为统计学研究者,也想为防治雾霾这一困扰国家之事做点贡献,立刻发动中心的学生与几个同事,开展PM2.5及相关数据的收集。首先从aqicn.org/city/Beijing/cn开始,发动“广大”师生每小时记录一次。
在研究了几个相关网页之后,我给环保部和北京市环保局打了多个电话,没有结果。再同美国大使馆联系,说我们想要他们收集的PM2.5历史数据,对方让我们写个申请。申请后几天就收到从2008年到2014年3月底的PM2.5数据。大喜!然而只有PM2.5,没有同时间的气象数据也不行,大家都知道风也是影响PM2.5的重要因素。这使我们想到了气象局。
黄老师是去年从美国请来的年轻教授,他自告奋勇同北京气象局联系。几周后他报告说气象局可以给数据,但要花钱买:2008年后的数据要20多万元。我不信,请他再问。得到的解释是:“每小时的数据只是几块钱,不贵的”。20多万对我们做统计学来说是一笔大钱。为什么用纳税人资助获得的气象数据可以这样卖?为什么不可以像其它国家一样无偿公开?
我们那天都睡得不太好。我在他的微信上回帖:“这叫错位,异化,愿国家进步,有效率。”再过几周黄老师和张同学发现,一美国气象研究机构的网站上有北京南郊观象台每半小时的气象数据,免费!大家面面相觑,一时无语。
我后来和北大一数学院士谈起此事,他说北大一同事所研究的中国地表方面的数据也是从美国得到的。看来这不是一个部门的问题。这使我想到一些研究机构在办公楼顶安装仪器自己采集数据。其实这些数据环保局和气象局都已经有了,但由于数据不能共享,大家只能“自力更生”了。然而一台仪器需要专人维护,要经常调试、检测,这也是一种科研资金的浪费,这些经费本来可以用在更重要的研究上。
应该说,气象局、环保局已经开始对气象、环境信息通过网站即时发布。但对各学科的研究者来说,规范的长时间的历史数据更有科学价值。然而获取规范的长时间的历史数据仍是无路可循。往往要通过关系,甚至高价购买。
共享基本的公共数据,使各研究机构、企业能及时无偿获取、分析这些数据,对提高一个国家的实力至关重要。都说数据是新的“石油”,如果我们不能做到基本公共数据的社会共享,中国对大数据的利用恐怕在起跑线上就落后了。
我建议,气象、环保等不涉及国家安全的公共数据应该公开。可以签署协议对数据的使用进行规范,此外对研究团队的资质以及一些敏感的数据也可以审慎评估。希望在这件事上政府先带个头,为非公共机构也公开他们的数据做个榜样,为中国在大数据的利用上建立一个有效率的环境。