为了帮科学家省钱省力,我们建了一个全球只有6所,中国只有1所的“银行”

作者: 姜璐璐

发布日期: 2023-05-24

为了帮助科学家更好地共享和管理科学数据,中国科学院计算机网络信息中心建立了一个名为“科学数据银行”的平台,旨在降低科学数据存储和共享的成本,提高数据的可用性和流通性。通过开放科学数据,科学家们能够在更高的起点上开展研究,推动科学进步。

为了帮科学家省钱省力,我们建了一个全球只有6所,中国只有1所的“银行”。

如果把已有的科学数据开放共享出来,就可以让后面的科学家站在巨人的肩膀上,站在一个更高的起点上开展研究。大家好,我是来自中国科学院计算机网络信息中心的姜璐璐。我从事的工作是科学数据管理和科学数据共享,简单来讲,我和我的团队的工作就是为科学家建立一所“银行”。

在介绍我们的银行之前,想跟大家聊一聊最近的“网红”ChatGPT。ChatGPT号称是“史上最强的人工智能”,它可以帮大学生写作业,可以帮我们写代码,甚至可以帮科学家写论文,确实很厉害。而我作为一个科学数据管理的相关人员,关注的是它为什么可以“上知天文,下知地理”。事实上,ChatGPT背后有海量的科学数据在源源不断地喂养着它,帮助它成长。正是这些海量的科学数据使得ChatGPT变得如此智能。

再来看一个科学家给黑洞拍照片的例子。这张照片是2019年人类拍到的首张黑洞照片,它帮助物理学家验证了广义相对论。拍这样的一张照片,动用了全球8个天文台,历经了5个夜晚的观测,产生了4个PB的观测数据。科学家又花费了2年的时间,才用这4个PB的数据计算得出这张照片。所以说,黑洞的第一张照片是根据海量的科学数据计算得来的。在这两个例子中都有一个共同的身影,那就是科学数据。

科学数据可以非常大。贵州的FAST(500米口径球面射电望远镜)一天的观测可以产生50个TB的数据。相当于我们手边1TB的移动硬盘,它一天就能用掉50个,那么一年就可以用掉18250个。科学数据也可以非常非常小,甚至于说非常金贵。它可能产生于科学家电脑里的一个计算数据、显微镜下的一张图片,可能只有几KB、几MB这么小。一些科学家穷其一生只为了精确某一个科学数据小数点的后几位。

事实上,当前很多科学研究是围绕科学数据展开的。科学数据十分重要,而科学数据的开放共享是更重要的。很多数据的得来,蕴含着科学家非常多的努力和心血。如果把这些数据开放共享出来,就可以让后面的科学家站在巨人的肩膀上,站在一个更高的起点上开展研究。在科学研究过程中,会产生一些成功的科学数据,这当然非常宝贵。那也有实验失败的情况,产生的所谓的失败的科学数据,它也同样非常重要。

比如爱迪生在寻找电灯的灯丝材料的时候,试错了6000种材料才找到了钨丝。其实前面被淘汰的6000种材料对于后代的科学家而言也是非常重要的,因为大家不需要再在这6000种材料上重复试错了,可以把精力投向更多其他的研究和深入的研究上。如果大家还没有特别直观地感受到开放科学数据有多么重要,那我们再看一个开放数据推动生命科学研究取得突破性进展的例子。

使用包括17万个蛋白质结构的PDB及UniPort蛋白质数据库,预测蛋白质折叠。蛋白质是生命的基础,科学家花费很多的时间研究蛋白质,试图寻找一些生命的机理。人类已知的蛋白质总共有1.8亿种,但科学家花了半个世纪的时间也只看清了其中19万个蛋白质的结构。19万听起来好像体量已经挺大了,但放在1.8亿的体量里面,其实只占到了1/1000。图中紫色的点就是我们花半个世纪时间观测到的蛋白质结构的体量。

在2021年,英国的DeepMind公司推出了一个人工智能叫AlphaFold DB,它当年预测出了100万个蛋白质结构。从紫色的点跟浅蓝色的点的对比中,我们可以感受到这是一个非常大的突破。在2022年,AlphaFold DB将体量增加到了2000万,就是图中深蓝色的区域。那AlphaFold DB为什么可以在短短的一年时间内突破这么大体量的蛋白质结构预测呢?

这得益于人类在半个世纪积累的19万个蛋白质结构的开放共享。如果人类没有把蛋白质结构开放共享出来,就不会有AlphaFold DB,也不会有生命科学领域的这一个跨越式的进步。

那么,如果大家都把科学数据攥在手里面,不拿出来跟同行、跟科学家共享又会产生什么样的结果呢?我们来看两个数据。一个是美国的统计数据,它显示美国每年实验复现失败的年度成本估计是280亿美元,这是一个非常惊人的数据。

所以今年(2023年)白宫科技与政策办公室把2023年定为了开放科学年,把开放科学数据作为一项重要的工作。欧洲在开放数据方面起步比较早,实现也比较早。有统计显示,到2020年欧盟成员国通过开放数据累积节约成本预计达到17亿欧元。这两个数字可以帮我们直观感受到开放科学数据可以带来巨大的经济效益。

大家可能也好奇,中国的科学家在开放数据上做得怎么样呢?从最近两年的一些调查研究来看,中国科学家在开放数据、数据共享上是有比较普遍的实践,大概有93%的中国的科研工作者曾经分享过他们的数据。从国际尺度上来看,中国的开放共享科学数据的体量是在逐年递增的,而且在2020年超越了美国成为了世界第一。大家可以看图中黄色的柱子,它就代表着中国。

那我们的科学家都是通过什么方式来共享他们的数据呢?

通常做法是把数据放在一个专业的数据存储库平台上,依托专业的存储库平台让数据被更多的人看到、下载以及使用。早些年间,数据存储库平台主要集中在欧美发达国家,我国并没有与国际连通的、可以交流的存储平台。所以我国的科学家通常要把自己的宝贵的科学数据放在国外的平台上。国外平台的服务是收费的,而且是按存储大小收费的。

我们找了一个国外非常知名的存储平台按它的报价表计算了一下,如果我们的科学家要在海外的平台上存储1TB的数据,需要交付4800美金,折合人民币大概是3万元,还是挺贵的。

除了资金成本之外,还有时间成本上的问题。很多海外的平台在中国是没有存储节点的,意味着数据上传和下载是要跨越洲际传输的,速度会受到很大的限制,kb/s这样的传输速度时有发生。所以说,我国的科学家急切需要我们国家自己的一个数据共享平台来节约资金成本和时间成本,满足他们把数据共享给全球的科学家,实现数据流通以及学术交流的诉求。这项工作是非常必要且非常重要的。

我所在的单位中国科学院计算机网络信息中心从1986年就开始做科学数据的管理和相关的研究工作了。同时也牵头承担着中国科学院最早的科学数据库项目,到现在中国科学院科学数据总中心的建设任务。所以我们有近40年的科学数据管理和实践经验了。在积累过程中,我们真切地了解到我们国家以及一线的科研工作者在科学数据共享上的迫切需求。这也让我们萌生了想为科学家做点什么解决他们这些急迫需求的想法。

除了科学数据领域,我们单位同时还是中国互联网的诞生地。我们运营着中国科技网,同时也运营着科学家自己的“云”——中国科技云。正是因为有这样的网络能力、存储能力和科学数据的管理能力,我们觉得可以为科学家建设一个这样的存储库。我们设计的时候在想,给科学家建设的存储库应该是像银行一样:数据放上来,它是安全的、可靠的;它还具有良好的流通性,可以在国际的科学交流和传播过程中发挥更大的价值。

所以我们给我们平台起了一个名字——“科学数据银行”。我们在2015年建成了这样的一座银行,并且上线开展服务。

图中就是科学数据银行的样子。它跟货币的银行不一样,它是一排一排的机柜,一台一台的存储设备和一台一台的网络设备。这个银行里面没有办事大厅,没有营业员,主要是通过网站开放给全球的科学家,由他们来我们的站点,自助地把数据上传,也取走他们想要的有用的数据。我们同时也做了安全性的建设,达到了国家三级等保的标准,实现了我们的网络、服务以及存储7×24小时的监控,拥有高级别的数据安保和备份能力。

事实上,在完成这些工作之后,离科学家真正在我们的银行上存数据、用数据,还是有一段距离的。遇到的第一个困难,就是怎么让我们银行里的数据被大家用起来。这就要求数据它本身需要是可用、可被理解的。大家知道上面的数字是什么意思吗?好像不太行。因为我们不知道这个数据它的测量单位是什么、描述对象是什么、是在什么样的条件下产生的、是否有测量误差、误差范围是多少。那科学家必须知道这样的一些上下文,才能使用数据。

我们可以再看一个具体的、真实的例子。这是我们早期收到的科学家给我们的数据,就是一个excel表,什么描述信息都没有。这个数据只有科学家自己知道什么意思,可能过了几年之后,科学家自己也不记得了。所以这样的数据是不符合规范的。

数据共享是有国际原则的。国际上认为良好的科学数据共享应该是可以被便捷地发现,无障碍地被其他人、被同行科学家获取。而且可以被人理解还不够,还要可以被机器理解,可以被重新利用起来。所以我们团队制定了一套标准化的严格流程,来确保数据从存入、到处理加工、到最后发布都符合可用、可被理解的标准。现在我们平台发布出来的600多万的数据都是兼容国际和国内的标准,具有非常好的流通性。

那解决了数据可用、可被理解这件事情之后,我们的数据怎么被全球的科学家发现,这是我们面临的第二个问题。接下来要解决的是数据的全球流通性问题,简单来讲,就是数据国际化的问题。我们先后跟美国、荷兰、德国以及欧盟的最重要的一些学术平台架设起传播通路。现在全球的科学家都可以在国际上最主要的一些学术传播平台里面检索到我们平台的数据。

那数据仅仅是被检索到还是不够的,最终还是要被科学家下载到他们的计算机和计算环境里面。前面有提到,我们往海外的服务器上传数据的时间成本是非常大的,国外的科学家来我们平台上使用数据或者上传数据也是面临同样的问题。

所以我们在国内建立了2000多个节点,优先保证我国科学家的获取数据速率。我们还在海外建立了500多个节点,让欧洲、美洲和其他国家的科学家都可以快速地获取我们的数据。

我们对所有的节点进行了一些监控,上面是一个监控图。在伦敦的科学家有时候可能下载速度比在北京的科学家还要快。这是我们在加速访问上的一些工作。我们也非常自豪,现在我们的数据已经被全球180多个国家和地区的科研人员使用了。他们来到我们银行,把数据拿走,用于他们的科研活动和科研创新,这意味着我们的数据被大家用起来了。

我们非常希望科学家可以自愿地把自己宝贵的数据存储在我们的平台上。

我们需要解决的是科学家对我们平台信任问题,这其实是非常难跨越的一步。我们的解决思路是找国际上最顶尖的学术出版商,让他们来对我们进行考核,让他们来说我们的平台是不是可信的平台,是不是可以帮助科学家进行科学数据开放共享。

所以我们在2020年开始着手一项申请的工作,联系了国际顶尖的Springer Nature出版商对我们平台进行非常严苛的评估,对我们的安全性、标准化、国际化、流通性以及整个团队的软实力等方面进行考核。最终在2020年,我们成为了Springer Nature向全球作者推荐的通用型科学数据存储库。

我们当时入选的时候,它名单里面有6家国际的科学数据存储库平台,我们是第7家。

在2021年这个名单进行了缩减,又砍掉了1家。所以现在推荐名单里面是有6家存储库。获得了Springer Nature的推荐收录之后,慢慢地,越来越多科学家开始信任我们平台,把数据放在我们的平台上了。我们也陆续获得了CellPress(《细胞》杂志社)、Elsevier(爱思唯尔)、Taylor & Francis(泰勒-弗朗西斯出版集团)等顶级出版商推荐认可。

从此以后,我们的科学家发表在顶尖刊物上的学术成果以及背后的支撑数据就可以存储在我们国家自己的存储库平台上了,就不需要再花钱、再花时间送到海外了。大家有没有注意到,近年来FAST团队有一些非常重量级的成果产出发表在像《自然》《科学》这样的顶级期刊上,这些研究背后的科学数据都存在我们的科学数据银行里面。渐渐地,也有越来越多海外的科学家团队把数据放在了我们的平台上。

比如希腊的一个团队,他们研究睡眠呼吸暂停综合症产生的大概1TB的数据,就存在我们银行。到目前为止,我们平台已经存储了全球来自70多个国家和地区的科研人员的珍贵的科学数据,这也是广大科学家对我们的一份信任,我们也觉得非常荣耀。

我们认为,科学数据银行的服务远不止步于此。那未来的科学数据银行会是什么样子呢?现在科学数据银行里主要是一些自然科学的数据,我们希望后面的数据可以覆盖更多的学科领域。

科学家可以在我们的平台里面进行一些交叉学科的交流和融合,这是服务全领域科学家的一个畅想。我们的另外一个畅想是,希望有一天数据可以不用走出科学数据银行,直接就连通我们的超算环境,帮助科学家对海量数据进行计算。科学家可以直接拿走他们想要的一些计算结果和数据产品。事实上这个畅想也不是凭空的,我们中心也有国家级的“东方”超级计算系统,我们也会努力实现这个梦想。

我们从2015年到现在,一直参与科学数据银行的建设工作,看到越来越多的科学家对我们认可与信任,我们团队也是非常地骄傲和自豪。我们也会继续努力为更多的科学家做好服务,让我们的科学数据发挥更大的价值,把小“钱”变大“钱”,把死“钱”变活“钱”。欢迎越来越多的科学家来我们的银行共享他们的数据。谢谢大家!

UUID: 2666ca4c-fe63-46e1-9045-93532d77b623

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/格致论道讲坛公众号-pdf2txt/2023/格致论道讲坛_2023-05-24_为了帮科学家省钱省力,我们建了一个全球只有6所,中国只有1所的“银行” | 姜璐璐.txt

是否为广告: 否

处理费用: 0.0215 元