2023年是DNA双螺旋结构发现七⼗周年。1953年2⽉28⽇,沃森和克⾥克根据⼥科学家弗兰克林拍摄的X射线衍射照⽚,成功推断出遗传物质DNA的三维结构模型。双链碱基配对模式的简约之美,直观提示了遗传物质的复制机理,瞬间开启了通往分⼦⽣物学的快速通道。
如果我们⽤⼀个问卷来调查1901年以来所有诺⻉尔⽣理学或医学奖项的知名度,排名第⼀的很可能就是1953年DNA双螺旋结构的发现。双链碱基配对背后呼之欲出的遗传物质复制机理,使该发现被誉为⽣命科学史上继达尔⽂演化论和孟德尔遗传学之后的第三座⾥程碑。
发现⼈之⼀沃森 (James Watson) 出版于1968年的The Double Helix(《双螺旋》)⼀书,写作⼿法引⼈⼊胜,⾮常适合中学⽣以及还未确定专业的本科⽣⽤来测试⾃⼰对基础⽣物学是否有兴趣。但是很多对⽣物化学有热情的⻘年学⽣在读完此书后可能会有不过瘾的感觉,尤其是⽆法在科普意义上理解沃森和克⾥克 (Francis Crick) 如何从X射线衍射照⽚推断出DNA的⼆级结构。
令⼈遗憾的是,沃森此书的视⻆过于主观,对⼥科学家弗兰克林 (Rosalind Franklin) 的重要贡献未能给出全⾯公正的评价。
1970年代以来,围绕着DNA双螺旋这⼀经久不衰的话题,也涌现了不少出⾊的科学史专著与⽂章。但我们很难发现⼀篇独⽴的科普著述,能从弗兰克林著名的“照⽚51”出发,把从X射线衍射数据推断DNA结构的要点都讲清楚。本⽂试图将很多零散的⽂献材料整合起来,对这个知名度极⾼的科学史案例给出不失新意的诠释。
⾸先简要回顾⼀下1953年3⽉前与DNA研究有关的⼏个重要事件:
1944年:埃弗⾥ (Oswald Avery) 等⼈给出了扎实的实验证据,表明DNA是肺炎链球菌的“转化因素”,⼤体确⽴了遗传物质的本质是DNA;
1951年11⽉:刚到剑桥⼤学卡⽂迪许实验室不久的博⼠后沃森,对导师肯德鲁 (John Kendrew) 的蛋⽩结构研究毫⽆兴趣。
他深知在伦敦的国王学院 (King’s College) 才是⽤X射线衍射研究DNA结构的“前沿阵地”,于是经常主动前来打探最新的进展。弗兰克林在⼀个报告⾥讨论了她在DNA纤维样品研究中发现的两种构型:A型 (她最早称之为“类晶体型”,环境相对湿度⼩于75%) 和B型 (她最早称之为“⾼湿型”,环境相对湿度⼤于90%);
1952年:查⼽夫 (Erwin Chargaff) 在回看⾃⼰积累的数据时发现,DNA所含的四种碱基中,腺嘌呤 (Adenine, A) 与胸腺嘧啶 (Thymine, T) 数量⼏乎⼀样,⻦嘌呤 (Guanine, G) 与胞嘧啶 (Cytosine, C) 的数量也⽐较接近;
1953年1⽉:沃森和克⾥克曾在1952年提出过⼀个错误的DNA三螺旋模型,卡⽂迪许实验室主任⼩布拉格爵⼠ (Lawrence Bragg) 明令禁⽌他们与弗兰克林和威尔⾦斯 (Maurice Wilkins) 竞争,必须放弃DNA结构建模的尝试。沃森在⼤半年过去后,借着美国加州理⼯⼤学的鲍林教授 (Linus Pauling) 将要发表DNA三链模型的最新消息再次来到国王学院。
虽然沃森与弗兰克林的谈话进⾏得很不愉快,但他在威尔⾦斯那⾥却获得了意外收获,看到了弗兰克林在1952年5⽉拍摄的B型DNA“照⽚51”:
1953年2⽉:沃森回到剑桥后转述给克⾥克的“照⽚51”样貌虽然很有信息量,但他并不知道照⽚背后的⼀些重要参数。克⾥克利⽤私交邀请威尔⾦斯前来共进午餐,同时表明他和沃森已获得⼩布拉格主任的准许⽽将重新开始DNA结构的建模。
威尔⾦斯不愿向克⾥克直接提供“照⽚51”的具体参数,但他提到弗兰克林在1952年12⽉曾向英国医学研究委员会 (Medical Research Council, MRC) 提交过⼀篇书⾯进展报告,⽽克⾥克的博⼠论⽂导师佩鲁兹 (Max Perutz) 正好是MRC委员会的成员。
在揭秘“照⽚51”背后隐藏的DNA分⼦结构信息之前,我们需要掌握⼀些X射线衍射的基础知识。很多⽣物⼤分⼦较难形成具有良好衍射性质的晶体,⽽DNA要等到1969年才⾸次结晶成功。幸运的是,不少线性多聚体分⼦在细胞外的分离纯化过程中容易形成纤维。当实验者⽤垂直于纤维轴⽅向的X射线照射这些样品时,得到的衍射图案中蕴涵着分⼦⽔平上的尺度信息。
能够形成纤维的⽣物⼤分⼦⼀般是组分和单体结构已知的多聚体,⽐如DNA就是由四种脱氧核苷酸通过3’,5’-磷酸⼆酯键⾸尾相连的序列。每⼀条DNA单链都有⽅向性,⼀端被称为5’末端,另⼀端则被称为3’末端。研究者若能把来⾃DNA纤维X射线衍射分析的尺度数据与已知的单体结构信息相结合,通过⽴体化学的限制条件来建⽴结构模型,往往事半功倍。
⽆论是类晶型 (crystalline,⽐如A型DNA) 还是⾮晶型 (non-crystalline,⽐如B型DNA) 的纤维,其X射线衍射图案往往都有沿着纤维轴⽅向分布的间距相等的层线,⽽层线的间距⼜与⼤分⼦结构的周期性有关。
有周期性的晶体或者纤维结构,可以⽤周期尺度为D的格栅模型来描述。
单束X射线穿过格栅后会被分解为多束电磁波,它们抵达检测屏幕时由于路程差⽽产⽣了相位差,从⽽通过⼲涉效应在胶⽚上留下衍射强度分布图样。多束射线相互⼲涉后的振幅分布函数F(θ),⼀般取值为复数,可以通过并不复杂的数学推导后⽤⼀个积分来计算。
公式中的f(x) 函数代表纤维中分⼦结构的电⼦密度分布,x为格栅模型的任意⼀点与纤维轴原点的距离,λ是⼊射X射线的波⻓,θ为每束射线改变⽅向后与⼊射⽅向的夹⻆,⽽虚数单位i (-1的平⽅根) 在电⼦⼯程⽂献中常⽤j来表示。在散射⻆θ⼀般⽐较⼩的情况下,我们可以⽤sin(θ) ≈ θ的近似,这样上⾯这个积分公式就成了著名的傅⾥叶变换。
纤维物质中⼀个相当常⻅的结构元素就是螺旋,⽽克⾥克本⼈在博⼠论⽂研究过程中,曾在1952年与两位X射线衍射专家合作,发表了螺旋结构傅⾥叶变换的CCV理论。CCV理论曾被应⽤于已知为螺旋结构的多肽链X射线衍射分析,与实验数据的⼀致性相当好。螺旋结构经过傅⾥叶变换后展示的衍射图案中,有⼀个⾮常显眼的“X”。
沃森虽然对CCV理论⼀知半解,但通过与克⾥克⼀年多的交流,第⼀眼看到“照⽚51”中的“X”也能⽴刻知道DNA结构中含有螺旋链。
克⾥克结合沃森转述的“照⽚51”概貌与弗兰克林MRC报告中的重要信息,总结出对搭建DNA分⼦模型⾮常重要的四⼤特征:“X”图案提示了螺旋链的存在,但还不能确定有⼏条链;“照⽚51”中央有个⽩⾊圆点,这是由于原点附近的“⾚道层线”(l = 0,也可称为第零级层线) 与第⼀级层线 (l = 1) 衍射强度过⼤,为避免整张底⽚的过度曝光,实验时⼀般⽤圆柱形铅块来遮挡;“X”中央的上下左右共有四个菱形区域,其中上下两个菱形中没有任何衍射强度;第四级层线的消失。
虽然有了共轴⽽相互缠绕的双链、碱基在内、以及螺距和半径等重要信息和参数,但沃森在搭建结构模型过程中还是遭遇了各种困难。他先是假设了所谓的“同类配对原理”,尝试把两条链上的碱基按照A:A,C:C,G:G, 和T:T来对应排列。腺嘌呤(A)和⻦嘌呤(G)是双杂环结构,⽽胞嘧啶(C)和胸腺嘧啶(T)是单杂环结构,因此沃森的嘌呤对在尺度上明显要⼤于嘧啶对,放到螺旋内部根本不可能嵌⼊⼀个规则的圆柱。
另外“同类配对原理”也⽆法解释前⽂提及的查⼽夫碱基⽐例经验规则。
当时与沃森和克⾥克共⽤⼀个办公室的多诺休 (Jerry Donohue) 看到这个模型后也指出,沃森依据戴维森的教科书选⽤的⻦嘌呤(G)和胸腺嘧啶(T)互变异构体是烯醇式,⽽多诺休认为在活细胞的⽣理环境中应该是酮式。
在多条证据推翻“同类配对原理”后,沃森才开始摆弄根据酮式互变异构体重新制作的碱基纸板模型,试图寻找新的双链间碱基配对模式。根据沃森在The Double Helix⼀书中的回忆,纸板模型让他顿悟了A:T对与C:G对在总体外形轮廓上相似,⽽其它的两两组合⽅案都⽆法做到这⼀点。
使⽤G和T的酮式互变异构体后,A:T对与C:G对之间都⾄少可以形成两个氢键,⽽这⼀配对模式⼜能符合查⼽夫经验规则,让克⾥克有⼀种好到难以置信的感觉。
在沃森领悟到碱基配对的同时,克⾥克还从弗兰克林书⾯报告中发现了⼀个只有他能领会的要点: A型DNA纤维由于接近晶体,弗兰克林指出其晶胞属于⾯⼼单斜类型,并包含C2空间群的对称元素。
克⾥克在与导师佩鲁兹⼀起研究载氧⾎红蛋⽩的晶体结构时,就曾与C2空间群打过交道,⾮常了解其数学和物理意义。他深知B型DNA纤维只是⽔含量增加,其内蕴的对称性应该与A型DNA⼀致。C2空间群的存在意味着双链DNA的⼆重对称轴必须在图垂直于纸⾯的⽅向,要求沿着纤维轴的双链互为反平⾏。如果按照沃森最初构想的平⾏双链,那么对称轴将平⾏于纤维轴,这与C2空间群的存在是不可调和的⽭盾。
克⾥克及时领悟到双链必须反平⾏,也解决了沃森在搭建模型中的⼀个⽴体化学困难。从“照⽚51”的分析中得到单股螺旋的螺距为3.4纳⽶,相互缠绕的双链如果是平⾏的,那么表观螺距就应该是6.8纳⽶,相邻碱基间的转⻆则为18度。只有18度的转⻆使得模型的原⼦间距过于拥挤,整个结构显得过紧⽽不合理。
⽽⼀旦采⽤了反平⾏模式,整个双链的表观螺距就还是3.4纳⽶,相邻碱基间的转⻆成了36度,构建双链模型的最后⼀个困难就迎刃⽽解。
DNA双螺旋结构的发现过程彰显了跨学科合作的重要性。弗兰克林除了获得“照⽚51”这⼀⾄关重要的实验数据,她本⼈的理论分析离正确的双螺旋模型也只有两步之遥。
克鲁格教授 (Aaron Klug) 在仔细阅读了弗兰克林当年留下的研究笔记本后发现:她了解查⼽夫的经验定则,写下了两个嘌呤碱基 (A和G) 以及两个嘧啶碱基 (C和T) 之间可以互换的正确想法,已经接近碱基配对的概念;她画出了DNA的平⾏双链螺旋示意图,只是没有意识到C2空间群的重要性,尚未领悟到双链⾛向必须反平⾏。
1958年,弗兰克林不幸罹患癌症⽽在37岁时英年早逝,令⼈扼腕叹息。如果她能得享天年,那么1962年的诺⻉尔⽣理学奖极有可能是她与沃森和克⾥克分享。历史也注定不会忘记这位⼥科学家的卓越贡献,英国王家学会 (Royal Society) 在2003年设⽴了“弗兰克林奖章” (Rosalind Franklin Award),每年表彰⼀位在科技/⼯程/数学 (STEM) 领域有杰出贡献的⼥科学家。