著名的“照片51”。这张由女科学家罗瑟琳·富兰克林和助手拍摄的照片对于解开DNA分子的双螺旋结构贡献巨大。2023年时逢DNA双螺旋结构发现七十周年。1953年4月25日,沃森和克里克在Nature杂志上发表论文,正式提出遗传物质DNA的三维结构模型。这个双螺旋模型中的碱基配对模式,直观提示了遗传物质的复制机理,也开启了通往分子生物学的快速通道。
DNA分子的结构小于显微镜所能观测的尺度,双螺旋模型的成功构建依赖于女科学家富兰克林拍摄的X射线衍射照片。这项重大发现对于遗传学、基因组学以及生物医学的很多领域都有着深远的影响。
本文将通过跨学科的科普视角,回顾与分析双螺旋结构的发现历史,以期让更多的读者直观了解探索微观世界的艰辛。
如果我们用一个问卷来调查1901年以来所有诺贝尔生理学或医学奖项的知名度,排名第一的很可能就是1953年DNA双螺旋结构的发现。双链碱基配对背后呼之欲出的遗传物质复制机理,使该发现被誉为生命科学史上继达尔文演化论和孟德尔遗传学之后的第三座里程碑。发现人之一沃森出版于1968年的《双螺旋》一书,写作手法引人入胜,非常适合中学生以及还未确定专业的本科生用来测试自己对基础生物学是否有兴趣。
但是很多对生物化学有热情的青年学生在读完此书后可能会有不过瘾的感觉,尤其是无法在科普意义上理解沃森和克里克如何从X射线衍射照片推断出DNA的二级结构。另外令人遗憾的是,沃森此书的视角过于主观,对女科学家富兰克林的重要贡献未能给出全面公正的评价。
1970年代以来,围绕着DNA双螺旋这一经久不衰的话题,有不少出色的科学史专著与文章相继出版。但我们很难发现一篇独立的科普著述,能从富兰克林著名的“照片51”出发,把从X射线衍射数据推断DNA结构的要点都讲清楚。本文试图将很多零散的文献材料整合起来,对这个知名度极高的科学史案例给出不失新意的诠释。
首先简要回顾一下1953年3月前与DNA研究有关的几个重要事件:1944年:埃弗里等人给出了扎实的实验证据,表明DNA是肺炎链球菌的“转化因素”,大体确立了遗传物质的本质是DNA;1951年11月:刚到剑桥大学卡文迪许实验室不久的博士后沃森,对导师肯德鲁的蛋白结构研究毫无兴趣。他深知在伦敦的国王学院才是用X射线衍射研究DNA结构的“前沿阵地”,于是经常主动前来打探最新的进展。
富兰克林在一个报告里讨论了她在DNA纤维样品研究中发现的两种构型:A型(她最早称之为“类晶型”,环境相对湿度小于75%)和B型(她最早称之为“高湿型”,环境相对湿度大于90%);1952年:查戈夫在回看自己积累的数据时发现DNA所含的四种碱基中:腺嘌呤与胸腺嘧啶数量几乎一样,鸟嘌呤与胞嘧啶的数量也比较接近;1953年1月:沃森和克里克曾在1952年提出过一个错误的DNA三螺旋模型,卡文迪许实验室主任小布拉格爵士明令禁止他们与富兰克林和威尔金斯竞争,必须放弃DNA结构建模的尝试。
沃森在大半年过去后,借着美国加州理工学院的鲍林教授将要发表DNA三链模型的最新消息再次来到国王学院。虽然沃森与富兰克林的谈话进行得很不愉快,但他在威尔金斯那里却获得了意外收获,看到了富兰克林在1952年5月拍摄的B型DNA“照片51”。
1953年2月:沃森回到剑桥后转述给克里克的“照片51”样貌虽然很有信息量,但他并不知道照片背后的重要参数。
克里克利用私交邀请威尔金斯前来共进午餐,同时表明他和沃森已获得小布拉格主任的准许而将重新开始DNA结构的建模。威尔金斯不愿向克里克直接提供“照片51”的具体参数,但他提到富兰克林在1952年12月曾向英国医学研究委员会提交过一篇书面进展报告,而克里克的博士论文导师佩鲁兹正好是MRC委员会的成员。
在揭秘“照片51”背后隐藏的DNA分子结构信息之前,我们需要掌握一些X射线衍射的基础知识。
很多生物大分子较难形成具有良好衍射性质的晶体,而DNA要等到1969年才首次结晶成功。幸运的是,不少线性聚合体分子在细胞外的分离纯化过程中容易形成纤维。当实验者用垂直于纤维轴方向的X射线照射这些样品时,得到的衍射图案中蕴涵着分子水平上的尺度信息。能够形成纤维的生物大分子一般是组分和单体结构已知的多聚体,比如DNA就是由四种脱氧核苷酸通过3’,5’-磷酸二酯键首尾相连的序列。
每一条DNA单链都有方向性,一端被称为5’末端,另一端则被称为3’末端。研究者若能把来自DNA纤维X射线衍射分析的尺度数据与已知的单体结构信息相结合,通过立体化学的限制条件来建立结构模型,往往事半功倍。
无论是类晶型(crystalline,比如A型DNA)还是非晶型(non-crystalline,比如B型DNA)的纤维,其X射线衍射图案往往都有沿着纤维轴方向分布的间距相等的层线,而层线的间距又与大分子结构的周期性有关。有周期性的晶体或者纤维结构,可以用周期尺度为D的格栅模型来描述。
单束X射线穿过格栅后会被分解为多束电磁波,它们抵达检测屏幕时由于路程差而产生了相位差,从而通过干涉效应在胶片上留下衍射强度分布图样。多束射线相互干涉后的振幅分布函数一般取值为复数,可以通过并不复杂的数学推导后用一个积分来计算。
公式中的函数代表纤维中分子结构的电子密度分布,x为格栅模型的任意一点与纤维轴原点的距离,λ是入射X射线的波长,θ为每束射线改变方向后与入射方向的夹角,而虚数单位在电子工程文献中常用j来表示。在散射角θ一般比较小的情况下,我们可以用sin(θ) ≈ θ的近似,这样上面这个积分公式就成了著名的傅里叶变换。
纤维物质中一个相当常见的结构元素就是螺旋,而克里克本人在博士论文研究过程中,曾在1952年与两位X射线衍射专家合作,发表了螺旋结构傅里叶变换的CCV理论。CCV理论曾被应用于已知为螺旋结构的多肽链X射线衍射分析,与实验数据的一致性相当好。螺旋结构经过傅里叶变换后展示的衍射图案中,有一个非常显眼的“X”。描述一个单链螺旋最重要的两个参数是:螺距P和半径r。
当一个螺旋半径不变而螺距变大时,其傅里叶变换预测的“X”图案中层线间距会变小;当一个螺旋的螺距不变而半径变大时,其“X”的两臂与子午线的夹角会变小。需要特别注意的是,图中显示的“X”夹角似乎变大,这其实是层线间距变小后产生的错觉。如果我们把夹角的大小定义为宽度与层线数比值的反正切函数,就会发现图中两个“X”在层线数相同时宽度是一样的。
沃森虽然对CCV理论一知半解,但通过与克里克一年多的交流,第一眼看到“照片51”中的“X”也能立刻知道DNA结构中含有螺旋链。克里克结合沃森转述的“照片51”概貌与富兰克林MRC报告中的重要信息,总结出对搭建DNA分子模型非常重要的四大特征:“X”图案提示了螺旋链的存在,但还不能确定有几条链。
通过富兰克林报告中给出的夹角,克里克可以推算出B型DNA的螺旋半径约为1纳米;“照片51”中央有个白色圆点,这是由于原点附近的“赤道层线”与第一级层线衍射强度过大,为避免整张底片的过度曝光,实验时一般用圆柱形铅块来遮挡。通过度量从第二级层线开始的平均间距,很容易推算出B型DNA的螺距约为3.4纳米;“X”中央的上下左右共有四个菱形区域,其中上下两个菱形中没有任何衍射强度。
克里克据此可以推断:DNA分子的核糖-磷酸骨架在外,而碱基在内。这两个菱形在子午线方向的对角线跨度为10个层线,提示B型DNA每圈螺旋中有10个核苷酸单体;第四级层线的消失:克里克根据他自己的CCV理论做了一番数学推导后发现,两条共轴而相互缠绕的螺旋链,投影到二维平面上就是两个有相位差的正弦波(或余弦波),若它们的相位差是螺距的3/8,那么在傅里叶变换后叠加就会产生第四级层线的相消!
这也是从1953年2月开始,沃森和克里克把精力集中在双链螺旋模型搭建的主要依据。
虽然有了共轴而相互缠绕的双链、碱基在内、以及螺距和半径等重要信息和参数,但沃森在搭建结构模型过程中还是遭遇了各种困难。他先是假设了所谓的“同类配对原理”,尝试把两条链上的碱基按照A:A,C:C,G:G, 和T:T来对应排列。
腺嘌呤和鸟嘌呤是双杂环结构,而胞嘧啶和胸腺嘧啶是单杂环结构,因此沃森的嘌呤对在尺度上明显要大于嘧啶对,放到螺旋内部根本不可能嵌入一个规则的圆柱。另外“同类配对原理”也无法解释前文提及的查戈夫碱基比例经验规则。
当时与沃森和克里克共用一个办公室的多诺休看到这个模型后也指出,沃森依据戴维森的教科书选用的鸟嘌呤和胸腺嘧啶互变异构体是烯醇式,而多诺休认为在活细胞的生理环境中应该是酮式。
在多条证据推翻“同类配对原理”后,沃森才开始摆弄根据酮式互变异构体重新制作的碱基纸板模型,试图寻找新的双链间碱基配对模式。根据沃森在《双螺旋》一书中的回忆,纸板模型让他顿悟了A:T对与C:G对在总体外形轮廓上相似,而其它的两两组合方案都无法做到这一点。使用G和T的酮式互变异构体后,A:T对与C:G对之间都至少可以形成两个氢键,而这一配对模式又能符合查戈夫经验规则,让克里克有一种好到难以置信的感觉。
在沃森领悟到碱基配对的同时,克里克还从富兰克林MRC报告中发现了一个只有他能领会的要点:A型DNA纤维由于接近晶体,富兰克林运用帕特森函数的计算发现,其晶胞属于面心单斜类型。由于DNA分子中存在大量的不对称碳原子,描述这类单斜晶胞对称性的空间群不可能包含镜面对称的元素,而只有C2空间群这一种可能。
克里克在与导师佩鲁兹一起研究载氧血红蛋白的晶体结构时,就曾与C2空间群打过交道,非常了解其数学和物理意义。他深知B型DNA纤维只是水含量增加,其内蕴的对称性应该与A型DNA一致。C2空间群的存在意味着双链DNA的二重旋转对称轴必须在垂直于纸面的b轴方向,要求沿着c轴的双链互为反平行。如果按照沃森最初构想的平行双链,那么旋转对称轴将平行于纤维轴,这与C2空间群的存在是不可调和的矛盾。
克里克及时领悟到双链必须反平行,也解决了沃森在搭建模型中的一个立体化学困难。从“照片51”的分析中得到单股螺旋的螺距为3.4纳米,相互缠绕的双链如果是平行的,那么表观螺距就应该是6.8纳米,相邻碱基间的转角则为18度。只有18度的转角使得模型的原子间距过于拥挤,整个结构显得过紧而不合理。
而一旦采用了反平行模式,整个双链的表观螺距就还是3.4纳米,相邻碱基间的转角成了36度,构建双链模型的最后一个困难就迎刃而解。
DNA双螺旋结构的发现过程彰显了跨学科合作的重要性。富兰克林除了获得“照片51”这一至关重要的实验数据,她本人的理论分析离正确的双螺旋模型也只有两步之遥。
克鲁格教授在仔细阅读了富兰克林当年留下的研究笔记本后发现:她了解查戈夫的经验定则,写下了两个嘌呤碱基(A和G)以及两个嘧啶碱基(C和T)之间可以互换的正确想法,已经接近碱基配对的概念;她画出了DNA的平行双链螺旋示意图,只是没有意识到C2空间群的重要性,尚未领悟到双链走向必须反平行。
克里克认为富兰克林若没被他和沃森抢先,也能在几个月后解出DNA的双螺旋结构,只是这一过程会是循序渐进的,而不是如雷电般的灵光乍现。
1958年,富兰克林不幸罹患癌症而在37岁时英年早逝,令人扼腕叹息。如果她能得享天年,那么1962年的诺贝尔生理学奖极有可能是她与沃森和克里克分享。历史也注定不会忘记这位女科学家的卓越贡献,英国王家学会在2003年设立了“富兰克林奖章”,每年表彰一位在科技/工程/数学领域有杰出贡献的女科学家。