DNA测序过去40年的进步令人惊叹,今后又将走向何方?研究人员对DNA测序数据的需求永远难以满足。从执法到数据储存等多方面思考了未来40年DNA测序技术的应用。40年前,两篇论文第一次详细介绍了测定DNA长链中碱基序列的简易方法。在此之前,分子生物学家们只能对DNA小片段进行测序。DNA测序方法以前所未有的速度从当年的尚不发达发展到现在的高通量输出。
在2007年以前,DNA测序数据呈指数增长,而近十年则更是达到了超指数增长。快速累积的数据催生了DNA测序在多个领域的运用,不仅仅是基础生物学,还包括考古学、犯罪调查、产前诊断等。
未来40年DNA测序又能为我们带来什么呢?我们对于何种技术,或者说哪些应用最具颠覆性所进行的预判往往都是错误的。在互联网发展早期,很少有人预测到电子邮件将被如此广泛使用。
相似的,华尔街的交易员以及硅谷的投资人也没能预见电脑游戏、在线视频流和社交媒体将成为互联网的主导。很难说我们对于DNA测序的预测比以前更准确。所以,我们只是为如何看待DNA测序提供一个基本框架。我们的核心观点是,决定DNA测序未来走向的不是技术,而是应用。
技术的进步可能正向或负向地影响市场需求。
微软联合创始人比尔·盖茨曾引用子午轮胎来证明技术提升可能减低市场需求:因为改进后的轮胎比以往更耐用,轮胎需求降低从而导致了轮胎行业萎缩。我们认为DNA测序技术的发展将遵循计算机技术和摄影技术的模式,而不是轮胎模式。随着DNA测序技术价格降低且愈加方便易得,其应用将会进一步增加,从而促进需求的增长。DNA测序技术的应用范围从科研领域拓展到临床、消费品及其他领域,将进一步证明“多供多需”这一规律。
研究人员对DNA测序数据的需求永远难以满足。20世纪90年代,要完成一个人的基因组测序看起来似乎是不可能的;而如今,遗传学家希望能够得到地球上每一个人的基因序列,不同发育阶段每个组织内每个细胞的DNA序列(包括表观遗传修饰),无论是健康状态还是疾病状态。他们还希望通过对信使RNA的互补DNA进行测序,更全面地了解基因表达。
同时,考古学家也开始重构人类祖先基因的传递过程,正如他们以往对语言、文化学行为及物品所做的推断一样。分类学家、生态学家、微生物学家和演化生物学家也试图对所有现存的(以及已经灭绝的)物种,甚至是整个生态系统进行测序。
很显然,对DNA测序数据的持续需求是建立在测序结果能够被准确理解的基础上的。目前,分析和解读DNA序列数据仍处在瓶颈阶段。
但是正如新的信息学方法和大规模数据集极大地优化了翻译和图片识别,我们认为,研究人员能够利用大量的DNA序列数据集,辅以表型信息推断出基因组序列所编码的生物学功能。此外,解读测序数据所必需的许多基础科学已经成熟,例如细菌基因组的高质量参考序列或某基因通路在健康人群中的运作规则,它们将服务于日益增长的实际应用,包括识别环境或临床无偏调查样本中的微生物DNA序列,鉴定与已知生物学效应相关的基因组变化。
多年来,DNA测序方法已经发生了巨大的变化。然而其他一些似乎永远有需求的技术,例如手机、互联网、数码照相的发展轨迹暗示真正重要的是技术的应用,而非新技术。在过去40年里,DNA的测序方法在不断更新。1985年以前,几乎所有的DNA测序都是通过Sanger双脱氧链终止法完成的。反应产物用荧光标记,在丙烯酰胺凝胶上电泳分离,并通过自动射线照相术进行检测(通过X射线或照相软片检测荧光标记的样本片段)。
而到2000年,四色荧光标记法成为主流,反应产物用链终止核苷酸类似物标记,在充满胶冻样的毛细管中电泳分离,通过能量转移荧光染色剂识别。到2010年,DNA测序的方法进一步多样化。主要方法是基于聚合酶群落(大量复制的单个DNA模板)的大量平行分析和合成-测序化学(依赖于可逆的链终止子)。
从现在开始,每种DNA测序方法将为其应用服务。
在肿瘤学和医学遗传学中,DNA测序的目标往往是准确识别每一个碱基及每一个基因片段可能存在的变异。有时候我们需要的是简单的“是”或“不是”的答案,例如物种识别,在这种情况下,方便快捷可能比准确性更重要。另外一个可能发生改变的是集中DNA测序和多点DNA测序的相对需求。希望实时鉴定塞拉利昂某村居民到底感染了何种病毒的流行病学家可能需要廉价且可携带的DNA测序设备。
而对于那些样本量巨大的机构来说,将样本统一交给专门公司进行集中测序可能更为方便,性价比也更高,尤其是要求检测实验室达到严格的质控标准,并能对样本进行准确追踪的时候,例如医院进行基因检测时。
我们相信DNA测序将会给医学领域带来变革。就检测数量而言,如今DNA测序在临床中的“突破性”应用是产前诊断。产前诊断旨在识别染色体数量异常,例如3条21号染色体,即唐氏综合征。
目前,该检测依赖于母体血液内少量的胎儿DNA。即使是在人类基因组计划结束的时候,人类也未曾想象到DNA测序可以被如此广泛应用,产前诊断被誉为“医学史上发展最快的基因检测”。事实上,业内专家估计每年全世界约有400万到600万孕妇接受产前检查,而这个数字将在未来10年内超过1500万(该信息由D. Bianchi、D. Lo和D. Zhou在私下交流中提供)。
产前诊断的某些特点似乎也为DNA测序在初级护理中的应用提供了思路:无创、操作简单,对具体核苷酸序列准确性要求低(染色体计数无需考虑核苷酸序列的变异)。
在高收入国家,基因组测序已经常规性地应用于患有难以诊断的先天疾病的儿童。对DNA序列进行分析能够找到其中约30%病人的致病突变——这个比例随着基因数据解读能力的上升会进一步提高。在一些病人中,通过基因测序得到的诊断能够显著提高医疗质量。
通常情况下,基因测序能够缩短诊断时间,提供更清晰的临床信息,这对于医生和患者家庭来说都是有益的。在肿瘤学中,大量资金被投入到液体活检技术的发展中。不难想象,这项基于测序的肿瘤检测技术将像巴氏涂片和肠镜一样成为常规筛查项目。随着靶向具体突变而非肿瘤类型的癌症疗法的出现,液体活检甚至可以在仅有血样本中DNA序列标记物提示肿瘤存在的时候,指导实施干预措施。
除了临床以外,我们还能预见到DNA测序的其他应用,尤其是便携式DNA测序仪。流行病学家以及农村地区的卫生医务人员可以使用这类仪器检测空气、水、食物、动物及带菌昆虫,更不用提人类的咽拭子及体液了。事实上,低中收入国家DNA测序技术的普及已经帮助了多个项目展开,例如全球病毒组计划。该计划旨在通过测定环境中的大量DNA样本,鉴定绝大部分能够传播给人类并导致疾病的病毒。
同时,公共卫生学家也开始讨论如何通过测定所有城市废水排放口的所有微生物的DNA序列来尽早判断疾病的爆发。海洋生物学家正在探索依靠系统宏基因组研究来监测海洋健康状况。
在街道上,便携式设备能够使DNA分析走出犯罪实验室,成为前线警务工具。警方在未来或许能够像现在检查车牌或者身份证明一样“读取”人们的DNA。不过,DNA测序在多大程度上为大范围监控提供了可能性,近来引起了人权团体的关注。在家里,DNA测序仪器或许将成为继烟雾报警器及恒温装置的下一个“智能”或“连接”设备。甚至有评论家认为卫生间将是利用实时DNA测序检测家庭成员健康的理想场所。
那么阻碍DNA测序进一步发展的障碍有哪些呢?在过去的短短40年间,将细胞的分子学信息转化为实际应用这一核心目标已经从一个信息学挑战转变为一个元信息学挑战。以DNA测序数据的临床应用为例。很快,DNA测序将被作为体液分析的常规检测服务于临床。但只有基于数百万人的多年病史资料,建立大规模的有序数据系统才能够帮助决定应该针对哪些DNA测序结果采取干预手段。
在医学方面,我们赞同顾问团体,例如美国国家研究委员会精准医学分委员会的建议,即建立大范围“信息共享”,将分子及临床数据与数百万个体的基因序列整合起来进行综合分析。这些群体尺度的大规模体系正在建立中,例如英国的生物样本库资源及美国的全人类研究计划。
关于DNA未来的发展,最准确的预测就是意外是必然的。事实上,几十年后,(如今储存在硬盘驱动器及云端)的大部分数据将很可能储存在DNA里。DNA测序之所以能够继续发展,不是因为人类要对抗疾病,而是因为对数据储存的野心永远无法满足。