生物大数据激增，或揭示疾病如何发生

自2012年美国总统奥巴马提出“大数据”（Big Data）以来，生物大数据如火如荼地发展。通过高通量测序，我们已经积累了庞大的基因数据，通过移动互联网，我们也获得了海量的健康信息。这些数据的应用，将为疾病的诊断、分型、医药开发提供新方向以及新工具。然而如何分析基因以及健康数据，是横亘在大数据本身与解决健康问题之间难以逾越的鸿沟。

不过有一点我们可以确信：当大数据分析的精度越来越高时，我们对疾病发生的过程就会有更深入的了解。21世纪初，人类基因组计划（HGP）发布了第一张人类基因草图，人的基因组约有30亿个碱基对，意味着每一个人的基因组有3Gb以上的数据。该计划曾与上世纪的曼哈顿计划（原子弹制造）、阿波罗登月计划并称为三大科学计划，为本世纪的一个里程碑式的科学工程。15年过去了，基因组测序技术发展之快已经超乎人们的想象。

十年前，这项技术还只是实验室中一个“迷人”但又昂贵的研究工具。现在，它却已经渐渐步入医疗界，成为一种略显“尖端”的诊断技术。该技术也引领生物医学领域进入大数据时代。早前，曾有人预言，当个人基因组测序费用下降到1000美元时，就标志着我们的医学将进入个体化医疗（Personalized Medicine）的时代。

现在，这个目标已基本达到，随着这项技术的迅猛发展和成本的扁平化，它已经开始给我们带来了庞大的数据，包括基因组、蛋白组等各类组学（omics）的出现，也带来了不少数据。刚过去的七八年间，我们储存的个人基因组数据量已达到106规模，这个数量如此惊人，且这只是刚刚开始。

每年Illumina公司的HiSeq X 10测序仪已经可以完成超过18000人的基因组测序工作，该测序系统已分布在全球顶尖测序中心，每天产生大量的数据。英国2014年也启动了“十万人基因组计划”，美国和中国则宣布要完成多达一百万人的基因组数据收集工作。

面对这个现状，不少研究者表示，这些海量数据可能会淹没现有的分析渠道，并对数据存储提出前所未有的“高”要求。在群体基因组研究的浪潮下，虽然更多的人关注的仅仅只是整个基因组中的外显子部分，即基因组中可编码产生蛋白的部分，它占到了整个基因组的1-5%，这能够将需要分析的数据量减少到原来的1%。但即使在这种情况下，每年产出的数据量仍可达4000万Gb。这就带来了第一个难题，如何存储这么大的数据量？

有挑战也必然会带来机遇，这个机遇可以体现在生物医学领域的多个方面，比如医疗界的诊断方法更新、疾病分型更新、医药界药物开发新方向、医学界疾病治疗新方法，甚至生物学科基础研究领域的新工具等等。2013年，安吉丽娜·朱莉的故事轰动全球，为减少患上乳腺癌的风险，她进行了预防性的双乳腺切除术，而这个决定是在她检测到自身携带一种风险基因——BRCA基因后才做出的。

这个故事给出了一个鲜活的例子，就是如何把个体测序得到的数据与临床诊断联系在一起，这就好像人类正在从自己的基因组中找到这些失落的宝藏，从而帮助自己预防一些恶性疾病，但这只是这个时代所带来的一个福利而已，并且只占到很少的一部分。