他开发了基因界的百科全书,贡献却少有人知

作者: 张小牛

来源: 知识分子

发布日期: 2021-11-03

金久实教授开发了京都基因和基因组大百科全书(KEGG),该数据库对生物学研究贡献卓著,但由于其系统性工作性质,容易被忽略低估。KEGG通过整理和收录通路数据集,开发生物信息工具,为生物学研究提供基因功能信息支撑。金久实教授的贡献包括参与生物数据库GenBank的开发,以及在京都大学领导KEGG数据库的建设。尽管KEGG对生物信息学有重要影响,但其对复杂生命现象的解析能力有限,这可能是金久实教授尚未获得诺贝尔奖的原因之一。

生物信息要解决的问题是生物数据的产生、管理和挖掘。这种旷日持久的系统性推动与支撑,与通常意义上星光灿烂的概念和技术进展相比,似乎更容易被人们忽略低估。生物信息确实在各个方向上有力地推动了生物学研究和应用的发展。其尴尬之处在于,作为实用工具缺乏深度,而概念和技术突破又非常依赖实验设计和数据质量。就诺奖而言,生物信息最大的痛点是自身很难闭环,很难达到普遍接受的高度。

2018年,日本京都大学金久实教授被美国咨询公司科睿维安列为可能获诺贝尔生理医学奖的人选之一,提名理由是“对生物信息学的杰出贡献,特别是开发了京都基因和基因组大百科全书”。京都基因和基因组大百科全书英文全称是“Kyoto Encyclopedia of Genes and Genomes”,简称KEGG。即使从事专业生物信息工作的人也未必知道金久实教授,但略微接触过生物信息的人都会知道KEGG。

基因之间通过相互作用实现生物功能,发挥特定生物功能的基因集合被称之为通路,例如代谢通路、信号转导通路等等。KEGG正是通过不断整理收录通路数据集,并在此基础上开发了一系列生物信息工具,长期为日常生物学研究提供基因功能信息支撑。这是一项庞大繁复的系统性工作,显然对现代生物学研究贡献卓著。但是这种旷日持久的系统性推动与支撑,与通常意义上星光灿烂的概念和技术进展相比,似乎更容易被人们忽略低估。

这可能是金久实教授至今没有获得诺贝尔奖的原因之一。这也反映了传统生物信息学的窘状,作为实用工具而言缺乏深度,而概念和技术突破又非常依赖实验设计和数据质量。

金久实教授1976年毕业于东京大学物理系,后在霍普金斯医学院从事博士后研究,1981年成为阿拉莫斯国家实验室的研究科学家。在此期间,他参与了生物数据库GenBank的开发工作。这个经历显然对他此后开发KEGG专业数据库有很大帮助。时至今日,GenBank已经是全世界最重要的一级基因数据库之一,绝大多数人类研究产生的生物序列相关信息都能在这个数据库中找到。

1985年,他回到京都大学担任副教授,并于1987年晋升为正教授。1995年,他开始了人生中最重要的项目,KEGG数据库建设。KEGG数据库收录了大量通路信息,通路以基因互作的形式呈现。随着研究技术的发展,通路信息数据不断积累更新。KEGG数据库最典型的应用是通路映射,通过对目标基因的富集分析,预测目标基因可能的生物学功能。

金久实在1999年成为日本生物信息学会第一任主席,2013年成为国际计算生物学会荣誉资深会员。可以说,金久实教授为日本生物信息学乃至国际生物信息学的发展做出了许多坚实的推动工作。

KEGG的核心价值在于数据库于1999年首次见刊,目标是把各物种的实验数据在通路层面上组织起来,开发生物信息工具注释和比较通路。KEGG中的基础数据单元是基因,基因具有不同功能身份,通过与其他基因或者小分子互作实现特定功能,特定功能相关的基因和小分子在数据库中被组织为通路。

KEGG的历史定位在于人类基因组草图2001年发布,这意味着KEGG的设计早于大规模基因组数据的产生。实际上KEGG早期核心通路信息也是基于实验数据人工绘制。在数据量相对少的年代,流程式的数据组织方式能够非常好地反应基因功能。然而,随着测序技术的快速发展,生物序列信息爆炸式增长,对基因功能的解读就不仅仅停留在通路层面,例如近年来生物学研究从基因为基本功能单位,逐步拓展到单细胞为基本功能单位。

生物信息领域有一些很奇怪的现象。一方面,到处招不到做生物信息的人,而做生物信息研究的人又常常被主流认为提不出科学问题。另一方面,谁都可以宣称自己是做生物信息的,而生物信息具体包括哪些方向又众说纷纭。本质上,生物信息是一个工学学科,而不是理学学科。生物信息要解决的问题是生物数据的产生、管理和挖掘。生物信息并不需要解决生物学问题,因为生物学问题也可以通过实验技术进步而绕开生物信息。

那么,生物信息的重点应当是围绕特定生物数据开展的一系列研究和开发工作。

UUID: 982bddde-6a51-436e-8f3c-1ea26f4eafd1

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/知识分子公众号-pdf2txt/2021年/2021-11-03_他开发了基因界的百科全书,贡献却少有人知.txt

是否为广告: 否

处理费用: 0.0051 元