关门不可怕，缺谁谁尴尬

2018年1月20日星期六北京时间13点，正当大家沉浸在周末的欢声笑语中时，美国国会参议院由于几个小时前未能通过临时拨款法案，联邦政府非核心部门从20日凌晨起开始关门。这也是继2013年10月奥巴马政府时期关门事件之后的再次停摆。当然有亲们不禁会问：这与我有毛关系？其实，从事生命科学研究的小伙伴们或多或少都会受到一些影响。

这是因为，在大家经常使用的美国国立生物技术信息中心NCBI（National Center for Biotechnology Information）主页及下属各子库（如：PubMed，SRA等）中，会看到如下字样：“Because of a lapse in government funding, the information on this website may not be up to date, transactions submitted via the website may not be processed, and the agency may not be able to respond to inquiries until appropriations are enacted. ”这意味着此次美国政府停摆期间，向NCBI提交数据、索要数据注册号（Accession Number）、更新PubMed索引等相关服务将不会被受理，直到美国政府重新开张。

然而，在多数国际期刊上发表学术论文提供所涉及数据的Accession Number是一个前提条件！如果无法及时获取注册号，势必会影响亲们学术成果发表。

有小伙伴们会问了，为啥我们国家产的数据要提交到国外机构？

据统计，虽然我国生物组学数据产量约占全球40%，却长期缺乏国际认可的国家级生物数据库系统，科学家们不得不把宝贵的数据资源提交至国外相关机构（如NCBI、EBI、DDBJ），形成了高度依赖其他国家生物信息资源的危险与尴尬局面。庆幸的是这种局面自2016年开始发生了改变！

中国科学院北京基因组研究所生命与健康大数据中心（BIG Data Center， http://bigd.big.ac.cn）于2016年2月29日正式成立。

中心面向我国人口健康和社会可持续发展的重大战略需求，围绕国家精准医学和重要战略生物资源的组学数据，建立海量生物组学大数据汇交、存储与管理的应用与共享平台，发展组学大数据系统整合、挖掘与分析的新技术、新方法，力争建成支撑我国生命科学发展、国际知名的生命与健康大数据中心。

中心成立两年来成果不断。

2018年1月4日，在刚刚出版的《核酸研究》（Nucleic Acids Research）数据库专刊上，连登四篇北京基因组所生命与健康大数据研究成果，包括生命组学数据资源建设成果（D14-20）、实时定量PCR内参基因知识库—ICG（D121-126），甲基化数据库Methbank（D288-295）以及基因组序列变异库—GVM（D944-949）。

四篇文章在核酸研究杂志的发表，标志着我国综合型生物信息资源库建设获得国际同行进一步认可。

此外，《核酸研究》编辑在2018数据库综述《The 2018 Nucleic Acids Research database issue and the online molecular biology database collection》中提到“The issue begins with broad surveys of resources at major global centres, including the U.S. National Center for Biotechnology Information (NCBI), the European Bioinformatics Institute (EBI) and the BIG Data Center at the Beijing Institute of Genomics, Chinese Academy of Sciences. ”，生命与健康大数据中心首次以全球知名生物大数据中心的名义登上历史舞台！

曾几何时，在无数生物学教材中关于“美国、欧洲、日本世界三大生物数据中心”的描述将被改写，敬请期待！

针对组学原始数据存储归，BIGD建立了子库GSA（Genome Sequence Archive，http://bigd.big.ac.cn/gsa/），相当于NCBI的SRA和EBI的ENA。GSA专注于组学原始数据收集与整合，并提供免费的数据存储、共享与访问服务。

GSA的系统建设遵循了国际核酸序列共享联盟（International Nucleotide Sequence Database Collaboration, INSDC）的相关标准，致力于维护我国的数据主权，同时服务全球。GSA自上线以来，已经获得了同行们的广泛认可，目前有来自91家科研单位的282个科研工作者向GSA提交过数据。积累的组学原始数据已达到440 TB。

GSA存储的数据已支持Cell、Nature Communications、PNAS、Genome Research等杂志文章发表。各位小伙伴们，“手里有粮，心里不慌”，BIGD挺你！

“路漫漫其修远兮”！诚然，与建设了30余年的NCBI、EBI、DDBJ相比，中国科学院北京基因组所生命与健康大数据中心还有相当长的路要走。我们将不忘初心，牢记使命，砥砺前行！在此，也真诚地盼望，在建设属于中国的世界知名生物信息数据中心的道路上，广大的中国生命科学科研工作者能与我们同行！

PS，需要注册、提交组学数据及申请Accession Number的同学们欢迎与我们联系！我们将竭诚为您服务！