GSA和BIGD填补我国生物信息资源服务的空白

Genomics, Proteomics and Bioinformatics 期刊2017年第一期在线发表了一篇数据库相关论文“基因组序列归档库”（Genome Sequence Archive，简称GSA）。

作者来自中国科学院北京基因组研究所大数据中心（BIG Data Center, Beijing Institute of Genomics，简称BIGD），文中对他们开发的GSA平台作了简要介绍。该平台旨在收集、整合和发布国内外用户递交的原始序列数据。GSA项目是基因组所大数据中心正在进行的几个主要研究开发项目之一，该中心由近50位年轻的生物信息学研究开发人员组成。

除GSA项目外，还开展了多项面向生物信息资源服务的课题。

最近半个多世纪以来，分子生物学取得了长足的进展。DNA双螺旋的发现、遗传密码的破解、中心法则的提出，为分子生物学研究奠定了坚实的理论基础。与此同时，费雷德里克·桑格等先后建立了蛋白质、tRNA和DNA序列测定方法，约翰·肯德鲁和马克斯·佩鲁茨解决了X-射线晶体衍射解析蛋白质三维空间结构的难题。这些开拓性的研究，为日后分子生物学数据积累提供了必不可少的技术储备。

蛋白质序列数据库最早从事蛋白质序列收集的是美国国家生物医学研究基金会的生物信息学先驱玛格蕾特·戴霍芙博士。1965年，她把当时能收集到的65个蛋白质信息编纂成册，并以《蛋白质序列和结构图册》为名公开发表，并在以后的几年中不断更新再版。这就是国际上第一个蛋白质序列数据库“蛋白质信息资源”的雏形。

基于收集到的蛋白质家族序列，戴霍芙构建了氨基酸替换计分矩阵PAM，至今仍广泛用于序列比对和数据库相似性搜索。

蛋白质结构数据库第一个蛋白质结构数据库创建于1971年。与蛋白质序列数据库分别诞生于美国和欧洲不同，PDB的建立是欧美两国合作者共同努力的结果。1971年，英国剑桥晶体学数据中心和美国布鲁克海文国家实验室在《自然：新生物学》发布短讯，宣告该数据库系统开始运行。双方各自保存相同的数据文件，并免费向用户发布。

核酸序列数据库70年代末，由桑格等建立的DNA测序方法日趋成熟，核酸序列开始累积。欧美各国有识之士敏锐地意识到，大规模测序很快就会到来，建立核酸序列数据库的任务已经提上议事日程。1979年，美国能源部下属洛斯阿拉莫斯国家实验室沃特·高德领导的计算生物学研究组开始利用计算机收集核酸序列，并开发序列分析计算机软件，著名的序列局部比对Smith-Waterman算法也因此应运而生。

美国国家生物技术信息中心八十年代中后期，核酸、蛋白质序列和蛋白质结构数据库已经积累了相当可观的数据，而基于中小型和微型计算机的序列和结构分析软件也不断涌现。与此同时，由美国科学基金会资助的为科研教育服务的计算机网络NSFNet也开始投入使用。1988年11月，由已故参议员克劳德·裴帕尔提议，位于美国首都华盛顿北郊的美国国家生物技术信息中心成立。

欧洲生物信息学研究所欧洲生物信息学研究所成立于1994年，坐落在英国剑桥南部12英里维康基金会基因组园区内。EBI是EMBL的一个下属单位，主要经费来自欧盟，研究人员主要来自西欧各国。经过20多年的建设，EBI已经成为仅次于NCBI的国际生物信息中心，为欧洲各国和世界各地用户提供生物信息资源服务，并从事生物信息研究开发。

三大国际数据库联盟由美国政府部门资助的国家级生物信息中心NCBI和由欧盟资助的生物信息机构EBI的成立，为生物信息资源服务提供了人员和经费保障，促成了国际数据库联盟的建立。2003年，EBI的蛋白质结构数据库PDBe，日本蛋白质结构数据库PDBj和美国蛋白质结构数据库RSCB PDB共同组成国际蛋白质结构数据库联盟wwPDB。

互联网诞生和大数据时代到来20世纪90年代诞生的国际互连网，标志着信息时代的到来。正如诺贝尔奖获得者沃特·吉尔伯特于1991年1月发表在Nature上的卓有远见的文章中指出的那样，“我们必须把各自的个人电脑接入全球互联网，以便充分利用日新月异的数据库资源，并通过网络进行直接交流”。他明确指出，生命科学研究面临着一个模式的改变。

十年后的2001年2月，由政府资助的人类基因组计划协作组和美国Celera公司分别发布了人类基因组草图，标志着基因组学研究进入了一个新阶段。

GSA项目和基因组所大数据中心BIGD近三十年来，尽管我国生物信息学研究开发取得了一定成绩，但在生物信息资源建设方面，却几乎还是空白。

历史是最好的镜子，上述历史回顾告诉我们，在提供生物信息资源服务方面，我国已远远落后于欧美各国；三大国际数据库联盟中，根本就没有中国的踪影。为应对即将到来的大数据浪潮，建立国家级的生物信息资源和服务体系势在必行。值得庆幸的是，由中国科学院北京基因组研究所大数据中心BIGD开发的“基因组序列归档系统”GSA项目已经启动。

自2015年12月上线以来，国内39个研究机构近200个研究课题已经把他们的数据汇交到GSA平台。更加令人欣喜的是，该系统也得到了国际上的认可，美国科学院院报PNAS等多个期刊已经发表了汇交到GSA的学术论文。

在国际合作方面，BIGD也已经迈出了重要的一步。

2016年年底，BIGD举办生物信息大数据讨论会，NCBI和欧洲分子生物学网络组织等机构的学者应邀参加，与中心成员交流生物信息研究、开发、服务的经验。此外，中心聘请了NCBI、EBI、DDBJ等国际著名生物信息中心的资深人士担任科学顾问，并于2017年春节前召开了第一届国际科学顾问委员会会议。

当然，BIGD还刚刚建立，需要得到政府部门的资助和用户群体的支持，才能不断发展壮大，为建立我国国家级的生物信息中心奠定基础。