科学家研发出面向DNA数据库的物种界定规程

作者: Douglas Chesters; Chao-Dong Zhu

来源: 中国科学院动物研究所

发布日期: 2014-06-21

科学家研发了一种在分子序列数据库中界定物种的方法,通过获取DNA序列、过滤重复数据、划分遗传位点、界定物种以及匹配位点,形成多位点物种界定的数据矩阵。该方法应用马尔科夫聚类和开发软件解决复杂计算问题,在GenBank中处理大量数据,发现多种MOTU,并促进现代序列数据集的物种界定。

公共DNA数据库中包含很多生物类群,为系统学提供了大量数据来源。目前,基于分子数据的物种鉴别和界定工作已经逐步开展。现代测序技术的飞速发展,带来了海量分子数据的同时,也导致很多研究人员无法为相关数据提供准确的分类学信息。这些分类信息不够完整的分子数据,阻碍了在物种一级水平上开展精细的数据挖掘。同时,基于较大数据库进行物种聚类研究,也需要整合多个基因片段,从而在数据结构和计算过程中产生了很多问题。

Douglas Chesters博士在中国科学院动物研究所朱朝东研究组开展博士后研究,出站后被聘任为动物所助理研究员期间,研发了一种在分子序列数据库中界定物种的方法:1)首先获取所有昆虫的DNA序列,并对它们进行文本加工;2)根据一定的规则过滤掉重复数据;3)划分遗传位点L;4)根据每个位点信息,界定物种S;5)物种单元与位点相匹配,形成一组多位点物种界定的数据矩阵L×S。

作者应用马尔科夫聚类的方法将数据库划分为同源基因片段数据集。基于包含大部分物种多样性的基因,完成物种鉴定,并同时对物种单元名字赋予物种名。在物种聚类过程中,两两相似之处计算的复杂性主要来源于线粒体基因组中的COI位点。科研人员通过开发软件解决了这个复杂的过程:在分类的体系内执行序列两两比对,且为不同阶元的序列标注分类信息。

GenBank中超过24个不同同源基因,194 000个未带分类标签的序列,包含41 525个带分类标签的物种(98.7%从昆虫数据库中获得)。通过对每个位点的分层聚类,利用独立的最优参数,这些序列被分组到59 173个基于单个位点的分子分类单元(MOTU)中。来自不同位点的MOTU,由多部匹配算法进行匹配。这样,位点之间形成不一致性最低的多位点单元。

匹配后,科研人员通过这24个位点,发现了在目前的昆虫数据库中,存在78 091个基于多位点信息的MOTU。其中,38 574个单元包含物种分类学信息,而34 891个则没有包含分类标签,剩下的4 626个单元两种情况并存。

除了可以估算物种多样性,科研人员开发的规程还将促进现代序列数据集的物种界定。特别是L×S矩阵代表了后分类学思路,将可以解构种级元基因组数据。这些方法将可以在多个基因位点,甚至基因组水平提取大量数据,产生更多研究物种多样性的L×S数据矩阵,从而整合到后续的系统发育的流程。

UUID: a9bdcc6e-d2dd-4ce9-bcec-7ff83e0ce179

原始文件名: /home/andie/dev/tudou/annot/AI语料库-20240917-V2/AI语料库/中科院之声公众号-pdf2txt/2014/中科院之声_2014-06-21_科学家研发出面向DNA数据库的物种界定规程.txt

是否为广告: 否

处理费用: 0.0030 元