生物信息之拍案惊奇:爸爸去哪儿了?

作者: 薛宇

来源: 中科院之声

发布日期: 2014-04-21 13:54:09

本文讨论了生物信息学领域的四大“罗生门”式疑案,包括BLAST算法、MEGA软件、迈克尔·莱维特的身份以及生物信息学的定义和起源。文章通过详细的历史分析和案例研究,探讨了这些争议的背景和原因,并指出了生物信息学领域内的身份认同问题。

爸爸去哪儿了,BLAST是不是垃圾算法,MEGA是不是灌水,以及迈克尔·莱维特 (Michael Levitt)是不是生物信息学家,是生物信息史上的四大“罗生门”式的疑案。BLAST是不是垃圾算法,这个争议很久,但因为这个问题本身比较专业,并且也不是本篇讨论的重点,这里先忽略掉,以后有机会再讲。第三桩公案,我在之前详细的说明MEGA就是在灌水,灌的是纯水,并且灌成了经典。

当然反对意见也不是没有,比如,既然成经典了,怎么还能叫纯水呢?这个可以讨论,例如依云是不是纯水?能不能算经典?至于迈克尔·莱维特是不是生物信息学家,这个我在《震撼了!生物信息学终于也发奖了!》、《Michael Levitt拿奖的Twitter反应》等几篇博文里也做了解释。当然反对意见也很多,例如既然发的是化学奖,那拿的人自然是化学家。

关于这个问题迈克尔自己跳出来辟谣,说他是个物理学家,从来没学过化学,因此迈克尔肯定不是化学家。也有人说迈克尔是计算生物学家 (Computational Biologist) 而不是生物信息学家 (Bioinformatist/Bioinformatician),这个疑问提的相当相当有水平。

那么计算生物学家究竟是不是就等于生物信息学家呢?

我认为外行的观点应该是:不知道,应该是吧,可能是吧,大概是,可能是,或许是,好像是,等等。为啥我这么认为呢?因为内行的观点,与外行们是一样的。奇葩了吧?外行搞不清楚这可以理解,问题是内行们都搞不清楚自己究竟是干啥的,这个问题就严重了。这就牵涉到生物信息学家身份的“同一性”(identity),或者说,凭什么我们能判断某位学者从事的是生信,而不是其他领域的研究?

这个问题看上去似乎很简单:谁最先提出“生物信息学”(Bioinformatics) 这个名词,并且给出生信的定义,谁就是生信的爸爸,并且这个定义大家都必须得承认,并且可以作为生物信息学家身份的标示符。所以,找到第一篇有生物信息学这个单词,并且给出定义的文献不就得了?问题是,这个问题不简单。

因为第一,生物学的文献一般大家都检索PubMed数据库,如果用”Bioinformatics”这个单词去查找生物信息学早期的文献,你会发现最早的文献里,根本就没有”Bioinformatics”这个词。这是怎么回事?这是因为PubMed有意识的将”Bioinformatics”与”Computational Biology”混淆成同义词,所以搜到的生物信息早期的文献,其实是讲计算生物学的。

为什么PubMed要混淆这俩单词?因为他们在和稀泥,并且这个稀泥,是必须要和的,原因过会儿讲。第二,在Web of Science里检索”Bioinformatics”单词,只能搜到97年以后的论文,并且,最早期的论文之一提到,1995年7月欧洲生物信息学研究所 (European Bioinformatics Institute, EBI) 成立 [1]。

这也就说明,Bioinformatics这个单词,必须要出现在EBI建立之前。

最早讨论生物信息学早期发展史的,是美国马里兰大学的戴维·芒特教授。芒特教授于2001年3月出版了一本极具有深远影响的生物信息学教材《生物信息学:序列和基因组分析》 (Bioinformatics: Sequence and Genome Analysis,第一版),之后在2004年和2013年分别出刊了第二版和第三版。

当年读研究生的时候,生物信息的教材不多,芒特教授的第一版英文的原版还是老板想办法从国外带回来,我复印了之后看了很多遍。后来第二版出来之后,同济大学的曹志伟教授等人做了编译,所以买了一本慢悠悠的看。芒特教授写这本书的目标很明确,那就是希望作为全球的生物信息学教材。您琢磨着这位够狂的吧?

那还真不是盖的,无论谁再写书、编教材,没有人能够不受芒特教授的影响,就算是我本人讲生信,也是一边看芒特教授的课本,一边参考MIT公开课程的PPT,再结合自己的研究经验来授课。这本书的特点是:覆盖面广,内容详尽,并且几乎是生信领域最早的一本教科书,因此已成为生信的经典教材。好,这回问题就来了:既然芒特教授写了生信领域最经典的教科书,那他本人应该也是生信领域的知名学者喽?

例如,物理学家写物理课本,化学家写化学课本,对吧?我一个搞生信的要是跑去写本大学物理,你不觉得这是个笑话?所以一切皆有可能,因为芒特教授的的确确不是生物信息学家,其中维基百科里对他研究方向的介绍是计算几何学 (Computational Geometry)!另一个证据是他的个人主页,他的主要感兴趣的问题主要是几何学方面的数据结构和算法,并且从他的论文列表里,几乎没有一篇与生信相关。

讲到这,您是不是已经拍案惊奇了?

所以,事实是:一位长期从事计算几何学研究的资深学者,因为个人兴趣所在,随随便便写了本生物信息的教材,结果成了生信教材中难以超越的奇迹。讲到这儿,估计搞数学的学者们要乐了:当年一个名不见经传的业余数学家费马瞎白乎了个“大定理”,忽悠就忽悠吧,还非要在书上写因为空间有限写不下,哥们儿我就不证明了,害得一帮职业数学家被这玩意儿硬是蹂躏了几百年。

可问题是业余数学家,那也是数学家啊。物理学家们估计也不淡定了:专利局小职员、民科老爱能提出相对论,可怎么说也是物理背景的是不?当然我认为化学家们肯定是不觉得稀奇:你看人家维克多·格林尼亚,专职的花花公子,当然是以吃喝玩乐为主,不也照样拿了炸药奖?因此,第一,外行写经典的生物信息学教材,这也可以理解哈,大家就别再拿这个来调戏生物信息学家了;第二,高手在民间啊!

芒特教授的这本教材写的非常好,因为他本人是算法的背景,所以对各类生信算法的理解相当的深刻。最大的问题,就是第一章,介绍生信的发展史部分。首先,芒特教授对计算生物学和生物信息学做了模糊化的处理,也就是说,计算生物学就是生物信息学,反之亦然 (看见没,这就是和稀泥的)。那么谁是计算生物学的第一人呢?芒特教授给出一个名字:弗雷德里克·桑格。哪个桑格?

就是1958年及1980年分别因为胰岛素和DNA测序两度获得诺贝尔化学奖的桑格。证据?有。芒特教授的解释是,桑格等人1955年解析了猪和羊胰岛素的蛋白质序列组成,并且与牛胰岛素的序列比较了异同 (下图),因此,这是最早的序列分析工作 [2]。讲到这儿,我估计化学家和主流的生物学家都要跳起来了:这完全是忽悠!谣言!

表激动表激动,芒特教授早就猜到肯定有人要反对,所以很委婉的又提名了一个生物信息学的史上第一人:莱纳斯·卡尔·鲍林。对,你木有看错,就是那位拿了化学、和平炸药奖之后觉得不过瘾,想凭DNA双螺旋解析的工作继续拿生理奖,结果被俩毛头小子抢跑了的超级强人,鲍林。

理由是鲍林在1964年写过一篇论文,题目是分子疾病与进化,其中主要的观点是,第一,人类可能有5万~10万个蛋白质分子 (I believe that it is likely that a human being manufactures 50,000 or I00,000 different kinds of protein molecules),这个观点曾被学者广泛认可和接受,直到人类基因组测序结束之后,大家才发现人类仅有2万多个编码蛋白质的基因;第二,分子疾病是进化中产生的 [3]。

说鲍林是生物信息学家,估计物理学家和化学家们肺都气炸了:别忽悠了,你这么忽悠你自己敢相信吗?另外,搞分子进化的学者们也不爽了,鲍林就算是第一人,那也是开创分子进化的第一人,关你生信啥事啊?芒特教授一口咬定:你看,我这书里有一章讲的就是分子进化,所以分子进化的计算研究,就是生信的一部分。

这个,说实话哈,如果是桑格或鲍林是生物信息学的爸爸这个问题,大家要是都不反对的话,那我们生信领域的人应该是挺愿意接受的。问题是,物理学、化学、主流生物学领域的学者们,估计是不能同意。(未完待续)

UUID: e4f2b227-9547-45f9-b74f-4e9ba8747814

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中科院之声公众号-pdf2txt/2014/中科院之声_2014-04-21_生物信息之拍案惊奇:爸爸去哪儿了?.txt

是否为广告: 否

处理费用: 0.0074 元