各位正在站着看、坐着看、跪着看以及躺着看手机的朋友们,大家好!这里是中科院北京基因组研究所科研进展直播间。在这个晴空万里,红旗飘飘的日子里,我们要向全国各族人民,向全世界的中华儿女宣布一个喜大普奔的好消息——中国人自己的组学数据中心BIGD建设又获新进展!随着测序技术的发展,生命科学领域已经进入了组学时代,海量的数据产出成为常态。什么是组学?
顾名思义,是将基因、蛋白及代谢物等生物分子以整体为单位进行系统性的研究,基因组学、蛋白质组学和代谢物组学等相应产生。相较于此前以个体为单位的研究,组学最主要的特征就是大数据。有多大呢?请自行脑补“汪洋大海”向你涌来的画面。随着组学数据的产出,搭建组学数据库,实现海量信息的存储、整合及共享成为一项重要任务。
目前,在国际上被认可的生物组学数据中心主要有美国的NCBI、欧洲的EBI及日本的DDBJ,要想在国际期刊发表论文,需要先将自己的原始数据提交到这三个官方指定的数据库中,目的是为了更好地实现数据资源的整合与共享。
但数据的提交效率,下载使用中的各种不便利,你懂的……中国的生物组学数据产量约占全球的40%,是数据产出大国,却没有能够被国际认可的数据库系统,不得不将自己宝贵的数据资源交给他人代管,长此以往,中国的科学家始终不能做自己数据的主人呐!在这个友谊的小船说翻就翻的年代,搭建中国人自己的组学数据库,乘上自己的巨轮说开就开,是多少中国科学家的梦想,BIGD应运而生!
BIGD是北京基因组研究所生命与健康大数据中心(BeijingInstitute of Genomics Data Center)的简称,该中心肩负着建成面向国家大数据发展战略的多层次生物组学数据资源系统的重要历史使命。
目前的数据资源系统包括高通量测序的原始组学数据归档库GSA,围绕国家重要战略生物资源的基因组组数据库GWH,基于测序数据的基因表达数据库GEN,基于中国人群以及国家重要物种群体的基因组变异数据库GVM,基于全基因组DNA甲基化图谱的表观基因组数据库MethBank以及基于大众审编的生命科学维基知识库Science Wikis,初步形成了我国生命与健康数据汇交与共享平台,具备可服务于全球的基因组数据共享网络。
总之一句话,凡所应有,无所不有或即将拥有~值得一提的是,现在包括PNAS(美国国家科学院院刊)、Cell Research(细胞研究)等大牌期刊在内的多个国际期刊已经认可把数据提交到BIGD,从此以后,我们的数据我们做主,有了BIGD,小伙伴们再也不用担心提交数据的问题啦~!
这几天,BIGD在国际学术期刊NucleicAcids Research(《核酸研究》)上发表了题为The BIG Data Center: fromdeposition to integration to translation(北京基因组研究所生命与健康大数据中心:从存储到整合、再到转化)的研究论文,这是我们国内第一次以数据中心的模式,整体发布我国生命组学数据资源的建设情况,大数据中心的章张研究员、赵文明高级工程师以及肖景发研究员为本文共同通讯作者。
这标志着生命与健康大数据中心的建设取得了实质性重要进展,也标志着我国建设综合性基因组数据资源获得国际同行认可。吃水不忘挖(chu)井(zi)人,这么牛的工作是在中科院战略先导专项和国际大科学计划的支持下完成哒~~小伙伴们有木有觉得胸前的红领巾更加鲜亮啦~嘿嘿,谁让我们是行走在生命与健康研究领域的北京基因组研究所呢!