DNA测序过去40年的进步令人惊叹,今后又将走向何方?40年前,两篇论文第一次详细介绍了测定DNA长链中碱基序列的简易方法。在此之前,分子生物学家们只能对DNA小片段进行测序。DNA测序方法以前所未有的速度从当年的尚不发达发展到现在的高通量输出。在2007年以前,DNA测序数据呈指数增长,而近十年则更是达到了超指数增长。
快速累积的数据催生了DNA测序在多个领域的运用,不仅仅是基础生物学,还包括考古学、犯罪调查、产前诊断等。
研究人员对DNA测序数据的需求永远难以满足。20世纪90年代,要完成一个人的基因组测序看起来似乎是不可能的;而如今,遗传学家希望能够得到地球上每一个人的基因序列,不同发育阶段每个组织内每个细胞的DNA序列(包括表观遗传修饰),无论是健康状态还是疾病状态。他们还希望通过对信使RNA的互补DNA进行测序,更全面地了解基因表达。
同时,考古学家也开始重构人类祖先基因的传递过程,正如他们以往对语言、文化学行为及物品所做的推断一样。分类学家、生态学家、微生物学家和演化生物学家也试图对所有现存的(以及已经灭绝的)物种,甚至是整个生态系统进行测序。
很显然,对DNA测序数据的持续需求是建立在测序结果能够被准确理解的基础上的。目前,分析和解读DNA序列数据仍处在瓶颈阶段。但是正如新的信息学方法和大规模数据集极大地优化了翻译和图片识别,我们认为,研究人员能够利用大量的DNA序列数据集,辅以表型信息推断出基因组序列所编码的生物学功能。
此外,解读测序数据所必需的许多基础科学已经成熟,例如细菌基因组的高质量参考序列或某基因通路在健康人群中的运作规则,它们将服务于日益增长的实际应用,包括识别环境或临床无偏调查样本中的微生物DNA序列,鉴定与已知生物学效应相关的基因组变化。
在未来,DNA测序将会给医学领域带来变革。就检测数量而言,如今DNA测序在临床中的“突破性”应用是产前诊断。产前诊断旨在识别染色体数量异常,例如3条21号染色体,即唐氏综合征。目前,该检测依赖于母体血液内少量的胎儿DNA。即使是在人类基因组计划结束的时候,人类也未曾想象到DNA测序可以被如此广泛应用,产前诊断被誉为“医学史上发展最快的基因检测”。
事实上,业内专家估计每年全世界约有400万到600万孕妇接受产前检查,而这个数字将在未来10年内超过1500万。产前诊断的某些特点似乎也为DNA测序在初级护理中的应用提供了思路:无创、操作简单,对具体核苷酸序列准确性要求低(染色体计数无需考虑核苷酸序列的变异)。
在高收入国家,基因组测序已经常规性地应用于患有难以诊断的先天疾病的儿童。对DNA序列进行分析能够找到其中约30%病人的致病突变——这个比例随着基因数据解读能力的上升会进一步提高。在一些病人中,通过基因测序得到的诊断能够显著提高医疗质量。通常情况下,基因测序能够缩短诊断时间,提供更清晰的临床信息,这对于医生和患者家庭来说都是有益的。
在肿瘤学中,大量资金被投入到液体活检技术的发展中。不难想象,这项基于测序的肿瘤检测技术将像巴氏涂片和肠镜一样成为常规筛查项目。随着靶向具体突变而非肿瘤类型的癌症疗法的出现,液体活检甚至可以在仅有血样本中DNA序列标记物提示肿瘤存在的时候,指导实施干预措施。
除了临床以外,我们还能预见到DNA测序的其他应用,尤其是便携式DNA测序仪。流行病学家以及农村地区的卫生医务人员可以使用这类仪器检测空气、水、食物、动物及带菌昆虫,更不用提人类的咽拭子及体液了。事实上,低中收入国家DNA测序技术的普及已经帮助了多个项目展开,例如全球病毒组计划。该计划旨在通过测定环境中的大量DNA样本,鉴定绝大部分能够传播给人类并导致疾病的病毒。
同时,公共卫生学家也开始讨论如何通过测定所有城市废水排放口的所有微生物的DNA序列来尽早判断疾病的爆发。海洋生物学家正在探索依靠系统宏基因组研究来监测海洋健康状况。
在街道上,便携式设备能够使DNA分析走出犯罪实验室,成为前线警务工具。警方在未来或许能够像现在检查车牌或者身份证明一样“读取”人们的DNA。不过,DNA测序在多大程度上为大范围监控提供了可能性,近来引起了人权团体的关注。
在家里,DNA测序仪器或许将成为继烟雾报警器及恒温装置的下一个“智能”或“连接”设备。甚至有评论家认为卫生间将是利用实时DNA测序检测家庭成员健康的理想场所。
那么阻碍DNA测序进一步发展的障碍有哪些呢?在过去的短短40年间,将细胞的分子学信息转化为实际应用这一核心目标已经从一个信息学挑战转变为一个元信息学挑战。以DNA测序数据的临床应用为例。很快,DNA测序将被作为体液分析的常规检测服务于临床。但只有基于数百万人的多年病史资料,建立大规模的有序数据系统才能够帮助决定应该针对哪些DNA测序结果采取干预手段。
在医学方面,我们赞同顾问团体,例如美国国家研究委员会精准医学分委员会的建议,即建立大范围“信息共享”,将分子及临床数据与数百万个体的基因序列整合起来进行综合分析。这些群体尺度的大规模体系正在建立中,例如英国的生物样本库资源及美国的全人类研究计划。
关于DNA未来的发展,最准确的预测就是意外是必然的。事实上,几十年后,(如今储存在硬盘驱动器及云端)的大部分数据将很可能储存在DNA里。DNA测序之所以能够继续发展,不是因为人类要对抗疾病,而是因为对数据储存的野心永远无法满足。