寻找基因治疗的“黄金手指”

传统基因治疗“缺啥补啥”的思路，并不符合某些遗传病的治病逻辑，诸如亨廷顿舞蹈症等遗传疾病，是由于基因遗传突变“获得”了某种本来没有的新“功能”而导致的，并非源于其基因功能的丧失。自然而然，人们将目光转向了对人类遗传信息进行更为精细地操纵。不过随之而来，如何精确定位存在缺陷、需要修复的碱基，成为基因治疗需要面临的第二个技术瓶颈。

王立铭（浙江大学生命科学研究院教授、研究员，国家青年千人计划和浙江省千人计划入选者）在此前的“基因治疗的前世今生”系列文章中，我们讲述了科学家和临床医生如何利用天然的“细胞入侵者”——病毒——实现将治病DNA导入患者细胞中，从而解决了基因治疗的第一个技术瓶颈。今天，我们继续讲述基因治疗的第二个技术瓶颈是如何被突破的。

读者们可能还记得，前面故事里所讲的基因治疗的实例，无一例外都适用于某个基因出现突变、丧失功能的情况。4岁小女孩Ashanti DeSilva体内的ADA基因突变、功能丧失导致了严重的免疫缺陷；而亚利桑那18岁男孩Jesse Gelsinger罹患的疾病，是由有着拗口名字的“鸟氨酸氨甲酰基转移酶”基因缺陷而导致。换句话说，我们讲到过的基因治疗的经典案例，都是“缺啥补啥”的治疗思路。缺了个基因？

没问题，我再给你补一个好的基因进去！这个逻辑虽然简单粗暴，但是就和营养不良吃点蛋白质、微量元素不足就补维他命一样，确确实实能够挽救这些严重遗传病患者的生命。

可是接下来，问题就来了：如果某种遗传病不是因为某个基因失去了功能导致的，而是因为这个基因由于突变“获得”了某种不该有的新“功能”，甚至是增强了原来就有的旧“功能”，那么，我们描述的这种“缺啥补啥”的基因治疗思路就束手无策了。这也正是我们要讲到的传统基因疗法的第二个技术瓶颈——“缺啥补啥”的局限性。

实际上，符合上述情况的遗传病确实不少。

我们可以用大名鼎鼎的亨廷顿舞蹈症（Huntington's disease）为例作些解释。人类四号染色体短臂上有一个名为Htt（Huntington）的基因，编码一种与之同名的蛋白质。Htt蛋白的确切功能，我们还知之甚少，但是这个蛋白有一个惊人的属性——能够与细胞内的许许多多蛋白质相互结合（据信可能超过100种）。

因此，Htt蛋白的一个可能功能就是作为各种功能蛋白的“载体”或者“载具”，协助它们在细胞内的产生、运输、发挥功能、降解等等。

亨廷顿舞蹈症可能是被人类最早认识的遗传疾病之一。早在中世纪的欧洲，就有对相关症状的书面记载（特别是肢体不受控制的摇摆）。

1872年，美国医生George Huntington在对病历的研究中意识到，亨廷顿舞蹈症存在明显的遗传性：如果父母一方或双方患有该病，其后代有相当大的患病可能。而如果后代有幸成为没有患病的幸运儿，那么他/她的后代也可能不会再患病。罹患亨廷顿舞蹈症的患者的脑区，会出现明显的萎缩。图中可见，亨廷顿舞蹈症患者的脑体积明显缩小，相应的脑室体积明显增大。

Htt基因有一个有趣的属性，它的DNA序列中有不少C—A—G三个碱基（也即胸腺嘧啶—腺嘌呤—鸟嘌呤的排列）。根据分子生物学的中心法则，DNA会通过RNA指导蛋白质的合成。而CAG三碱基所对应的，恰好是一个特定的氨基酸——谷氨酰胺。因此，Htt蛋白中也就相应的带有一串数目不等的谷氨酰胺。

由于我们细胞内负责DNA复制的蛋白机器遇到不断重复的碱基序列时经常会出错，因此，我们体内Htt基因上的CAG重复序列的个数，也就是Htt蛋白中谷氨酰胺的个数，经常会发生变化，从几个、十几个到二十几个都会出现。不过，大概可以让我放心的是，看起来不同的谷氨酰胺数目似乎不太会干扰Htt蛋白的正常功能。

但是，一旦Htt基因中CAG重复的数量超过某个阈值（例如40个重复），Htt蛋白的功能就会被深刻而永久性的改变。突变Htt基因当中的超长谷氨酰胺链获得了一种新的、可怕的能力——它们可以自发形成巨大的蛋白聚合体。通过各自的谷氨酰胺序列两两交联，这些蛋白聚合体“积沙成塔”般地构成了一个巨大的蛋白三维网络，并且最终会裹挟着其他与之相结合的蛋白质，形成在电子显微镜下清晰可见的深色沉淀。

伴随这一过程，神经细胞的正常功能乃至生存都受到了严重干扰。随着病程深入，大脑许多区域会伴随神经细胞不断的死亡而萎缩并失去功能。其中，受到突变Htt蛋白影响的区域叫做纹状体（striatum），正是人体控制肢体运动的中枢之一。因此，亨廷顿舞蹈症患者最早出现的症状之一，正是肢体不受控制的随机舞动，而这也正是这种绝症得名的原因。

亨廷顿舞蹈症很好地诠释了一种靠“缺啥补啥”无法对抗的遗传病类型。在这种疾病中，Htt基因并非由于遗传突变丧失了原有功能，而是由于遗传突变“获得”了某种本来没有的新“功能”。读者们自然而然能够想象，在这个故事里，单纯利用基因疗法的逻辑给细胞运送一个“正确”的Htt基因，是无法阻止细胞内原有突变Htt蛋白继续聚集沉淀的。在数年到数十年的时间里，这种沉淀将缓慢而坚决地把患者带入绝望。

首先必须遗憾地告诉大家，这里看不到你们所期待的峰回路转的结局。尽管在很大程度上，我们能够通过技术去避免亨廷顿舞蹈症的新发病例（例如，可以对体外受精的胚胎或发育早期的胎儿进行遗传检测，确定其是否携带致病基因，从而进行某种程度的筛选），也可以为患者提供较为周全的对症治疗方案（例如针对其运动机能、认知功能、精神疾病进行的药物治疗、理疗和运动训练），但是亨廷顿舞蹈症目前仍是不治之症。

然而，人们一直在朝着能够治愈亨廷顿舞蹈症的方向努力。既然“缺啥补啥”的粗暴思路不能解决问题，人们就将目光转向了对人类的遗传信息进行更为精细地操纵。“基因组编辑”的概念随之诞生。与传统基因治疗的思路不同，基因组编辑的逻辑在于，通过某种手段修复遗传突变，进而从根本上阻止遗传疾病的产生。

从某种程度上说，传统基因治疗就像给濒危建筑打加强筋、装防震梁，延长它的使用寿命就行；而基因组编辑就像是修葺故宫三大殿，需要严格按照原样“修旧如旧”，还需要把建筑中糟朽不堪的零件取出、修缮甚至替换掉，然后再原封不动的安装回去，目标是让整座建筑精确地恢复原有的构造和机能。

上述两种基因治疗的思路，从指导思想到技术路线的差异可想而知，难度更是不可同日而语。不过，既然两者的目标都是为了通过修改人类DNA治疗遗传疾病，那么笔者在这个系列故事里，就把它们都放到基因疗法这个大框架里来讨论。现在，大家已经知道我们需要征服的目标了：利用某种方法，把人类基因组DNA上出现错误的某个或者某些碱基找出来，然后再把它们修复成正常时候的样子。剩下的问题，自然就是如何才能实现这个目标。

基因组编辑的逻辑。如果把人类基因组放大千万倍，基因组编辑的工作会非常简单而直观：用肉眼寻找到需要进行编辑的位置，用剪刀剪开需要修改的碱基，再用针线缝补进更新后的基因序列。然而在纳米和埃的微观尺度下，人类目前所能设计和制造的所有机器都显得过于粗大、笨重和低效率。

应该说，解决这个问题的难度的确不是一般的大。先说锁定目标这一步，要知道，人类基因组DNA约有30亿个碱基对，在其中找到一个需要我们特别修正的“问题”碱基，如果要通过一个一个碱基读下来，哪怕我们一目十行，可能也要读到头晕眼花甚至地老天荒才能找得到，更不要说基因组DNA在细胞内形成了高度复杂的三维结构，想要一个一个碱基顺序去读，其实也是不可能完成的任务。

再说修复这一步。用纯粹机械论的逻辑来规划，替换掉一个出错的碱基，至少需要这么几步：首先要用一双锋利无比、能够剪裁长度只有几埃的化学键的剪刀，把与这个问题碱基前后相连的碱基咔嚓咔嚓剪掉；之后，用一只机器手抓起问题碱基扔到垃圾桶，再抓来一个正确的碱基分子；最后，还得用无比精细的针线，把这个新碱基重新和前后的碱基缝起来，让它们重新形成一条完整的DNA分子。这远远超越了人类当前的知识和技术能力。

不过聪明（或者说懒惰？）的生物学家，又一次成功的投机取巧了，同以往一样，他们借用了大自然的力量。他们没有闷头去设计可能永远也造不出来的纳米机器人，而是在自然界寻找亿万年进化中衍生出的天然剪刀、机器手和缝纫机。

顺便插一句感慨。目前在生物学和医学界大行其道的重要工具，可能无一例外都来自大自然的鬼斧神工而非实验室中的人工设计。帮助我们传递治病DNA的，是亿万年来进化出高超入侵细胞能力的小小病毒。

在全球数不清的生物实验室里，生物学家用一种来自水母的、能够在紫外光照射下发出幽幽绿光的蛋白质——绿色荧光蛋白（GFP）追踪细胞中各种物质的产生、运输和定位。在肿瘤科的病房里，医生们用能够准确结合癌症相关蛋白的单克隆抗体（mAb）治疗癌症，而抗体分子之所以有特异识别和结合蛋白质的能力，是因为在生物体中，它们本来就被用用于高效识别入侵人体的各种抗原分子，铸成了人体免疫系统的钢铁长城。

大家从媒体上听说的转基因抗虫棉，就是科学家们把一种产生于苏云金芽孢杆菌中的、能够毒杀鳞翅目昆虫的蛋白质，通过转基因技术表达在棉花中实现的。甚至植物转基因技术本身，很大程度上也依赖于一种天然能够感染植物，并将自身遗传物质输入植物细胞中的生物——农杆菌——来实现。

而这一次面对基因治疗的难题，大自然馈赠给科学家的，是一根“黄金手指”。

用五颜六色的荧光蛋白画出的图画（左）和携带绿色荧光蛋白的转基因小鼠（右）。今天，各种颜色的荧光蛋白被广泛应用于生物学研究中，以此标记和追踪各种蛋白质分子在体内的生成、运输、定位和功能变化。但是我们不应该忘记，作为多数荧光蛋白的“祖先”——绿色荧光蛋白（GFP）并非人类的智慧创造，而是脱胎于一种能够发出幽幽绿光的海洋生物——维多利亚多管发光水母（Aequorea victoria）。

首先纯化出绿色荧光蛋白的日本化学家下村修，率先在生物体中应用绿色荧光蛋白标记的美国科学家Martin Chalfie，以及对工程改进绿色荧光蛋白居功至伟的Roger Tsien（钱永健）也因此共享了2008年的诺贝尔化学奖。

如前文所说，基因组编辑的首要难关，是如何从浩若烟海的30亿个碱基对中，精确地定位存在缺陷、需要修复的碱基。所幸，万亿年的生物进化，送给人类一根能够精确点中问题碱基的“黄金手指”，它的名字叫锌手指蛋白（Zinc finger protein）。锌手指蛋白的功能，就像是基因组的GPS，只要输入我们想要到达的基因组序列，它就能够帮助我们快速而精确的定位。

要说清楚锌手指蛋白的功能，我们得从基因组DNA怎么变成蛋白质说起。读者们也许听说过分子生物学的所谓“中心法则”。我们简要描述一下“中心法则”的核心思想。我们已经知道，人类的遗传信息以四种碱基A、T、C、G排列组合的形式，被存储在细胞深处的基因组DNA分子上。

这些基因组DNA分子由两条互补的碱基长链结合构成，每次细胞复制，双链DNA分子会解开连接，两条单链分别复制出一条与之互补的DNA链，从而形成两套信息完全一致的DNA双链分子（这一过程称为DNA复制）。

DNA双链分子的最重要功能，是指导一个细胞的蛋白质合成，从而决定细胞乃至一个生物个体的性状。

这个过程可以粗略分为两步：首先，DNA双链分子经历解链过程之后，由一个名为RNA聚合酶的蛋白质结合在特定的基因上，并根据DNA序列信息，生产出一条与之互补但是由核糖核酸构成的单链RNA分子（这一过程称为转录）。之后，RNA单链分子又根据三个核糖核酸碱基对应一个氨基酸的解码方式，生产出一条蛋白质分子（这一过程称为翻译）。

大家可以看到，在DNA—RNA—蛋白质的整个生成过程中，DNA携带的碱基信息被准确无误的转移到RNA分子上，之后用于指导蛋白质的合成。

那么问题来了。对于人类这样的多细胞生物（人体大约由40～60万亿个细胞所构成）来说，每个细胞中存储的基因组DNA是几乎完全一致的，而每种细胞合成制造的蛋白质却是千差万别：红细胞会制造大量的血红蛋白用于携带氧气，胰岛beta细胞制造和分泌胰岛素调节血糖，毛囊细胞不停地制造角蛋白用于毛发的生长……一模一样的DNA模版是怎样指导了五花八门的蛋白质合成，从而定义了不同的细胞类型呢？

这背后的故事可以写厚厚一本教科书，笔者就不在这里不自量力地展开讲述了。但是，有一个调节机制却不能不提：有一类被称为转录因子（transcription factor）的蛋白质，它们表现的就像是基因组的“活地图”、“GPS”。它们能够寻找定位并结合到特定基因附近，通过调节RNA聚合酶的活性，来控制各个基因在不同时间、不同地点、不同环境条件下基因转录的水平高低。

打个简单的比方，同样的一套遗传物质，之所以让胰岛beta细胞并且仅仅只让胰岛beta细胞合成胰岛素，可能是因为有一个控制胰岛素基因开关的转录因子，仅仅会在胰岛beta细胞中露面，然后结合在胰岛素基因序列的附近，从而启动了胰岛素基因的转录和胰岛素的产生。转录因子最重要的特性，是其准确的识别和结合特定DNA序列的能力。这一特性保证了转录因子可以精确地调控一个基因在不同时空的活性。

稍等，稍等……这里面是不是有我们可以利用的工具？转录因子既然可以在DNA碱基的海洋里准确找到它需要结合和调节的基因，这个能力能不能帮助我们找到需要定位和修改的缺陷碱基，从而修复病人身上的遗传缺陷呢？

换句话说，既然诸如这个假想中的控制胰岛素基因开关的转录因子，可以在每一个胰岛beta细胞中一次次无比准确地定位到胰岛素基因附近，那么，如果我们理解透了它背后的定位规则并稍加修改，是不是就能让我们准确地找到基因组DNA上任何我们想要定位的碱基呢？

没错，至少从逻辑上，这个思路已经相当接近最终的问题解决方案。在下一篇文章里，让我们简单回顾一下过去几十年，发生在实验室和药厂的精彩瞬间，看看人类利用转录因子的这一特点，构造出的那些形形色色的基因组GPS。