基因是生物的基本蓝图,存于DNA的碱基序列中,再靠着“遗传密码”直接转译成蛋白质的氨基酸序列,蛋白质于是自发折叠成天然的三维结构。序列和空间结构都可用数学的语言描述。
分子生物学运用序列比对和结构叠合这两项数学工具,试图描述并分类序列或结构。希望以演化做为指导原则,描述并预测蛋白质的序列、结构、功能彼此之间的内在关系。
从氨基酸序列决定蛋白质的三维结构是大自然的演算法,但受制于生物学的特性,从物化原理预测蛋白质结构并不容易。这个热门又重要的问题,应该从基本原理做起,或采用实用而有效的预测,考验数学的应用能耐。
为什么怀疑数学在生物学的有效性是合理的?生命系统所观察的性质,来自下列因素的组合:物理和化学定律、演化的机制、历史性的偶然因素。我们很难区辨这些因素,它们彼此之间的创造性张力遍布于我们的研究。
计算分子生物学在研究什么?我们的研究对象,至少形式上可以尝试着应用数学,包括基因的DNA序列、蛋白质的氨基酸序列、蛋白质结构、蛋白质功能。读者应该都听过的基因组计划,希望能确定有机体DNA的完整序列──生物的蓝图。
基因定序测量的进展速度很快,并且还在加速中。1998年,隐杆线虫的DNA已经完成定序,1999年与2000年,果蝇和人类基因组也可能完成定序。基因序列与我们研究的蛋白质结构牵连甚深又很重要。
计算分子生物学的目标是什么?首先是描述序列之间与结构之间的相似与差异,并做分类。我们希望能够描述与预测,序列、结构、功能之间的内在关系,并以演化做为组织的原理。
蛋白质结构的分析,首要的问题就是结构呈现的方法。目前已经发展出许多电脑绘图技术能简化的呈现蛋白质。每个蛋白质有一条线状重复的聚合物主链,每隔固定间隔有一些不同的氨基酸侧链接在上面。
蛋白质的演化探讨在相关物种里,相对应的氨基酸序列和蛋白质结构如何不同。这是能提供许多资讯的研究,帮助理解序列和结构的关系。虽然氨基酸序列包含了所有形成蛋白质结构所需的资讯,但我们还不知道如何从序列推演出结构。
蛋白质结构预测,大自然有一个演算法,可以单从蛋白质的氨基酸序列,就能明确得到三维结构,照理说我们可以发现这个演算法。如此一来,就能够预测人类或其他基因组基因序列中与生俱来的蛋白质结构,并应用于实用的问题如药物设计。
预测蛋白质结构时你需要怎样的资讯?最终目标是单纯的“从头做起”,单单只运用到目标蛋白质的氨基酸序列,毕竟大自然就是这样运作的,蛋白质在折叠前并没有先上网搜寻资料库。
为了让这项活动更有规矩,能够鼓励真正有进展的人,拒斥那些坚持他们“已经解出蛋白质结构预测问题”的人,莫尔特于是提出组织盲检试验的想法:正用实验解出蛋白质结构的科学家公开他们的氨基酸序列,但在公定截止日期前必须保持该结构的秘密。
预测结构的方法分成两大类:归纳法和演绎法。归纳法直接使用序列和结构的资料库。而演绎法是真正的“从头开始”,就像裸身登上热带荒岛一样,试图只用物理、化学和生物的一般原理预测蛋白质结构,却不明显参考已知的序列和结构。