论文部分内容阅读
高通量测序技术的不断更新,推动着宏基因组学的快速发展,使得目前可测序的宏基因组的数量越来越多,所测DNA序列也越来越大。如何有效地分析和处理这些巨量的宏基因组DNA信息,是生物信息学面临的一个挑战。然而,宏基因组学技术提取的宏基因组是环境样本中多个生物群落的零碎DNA片段的总和,且绝大部分DNA序列的种属未知。因此,自从宏基因组学创建以来,给这些DNA片段鉴定其归属就是一个倍受关注的难题。至今仍没有成熟的解决方案。这大大影响了宏基因组学研究的效率,成为其发展的瓶颈。本文从生物信息学的角度,研究可用于鉴定宏基因组内DNA片段物种多样性的数据处理系统中存在的几个关键问题,具体研究内容如下:(1).从DNA片段中提取优化的组成特征向量由于进化以及基因突变等原因,微生物基因组中往往包含一定比例的外来物种DNA片段,这些片段作为噪声,会影响所提取的数字特征的精度。为此,本文提出了一种提取DNA片段数字特征的新思路,先滤除插入到物种中的外来物种DNA片段,再提取数字特征。实验证明这种过滤后提取的数字特征比过滤前提取的数字特征能更精确地表现物种间的系统发育关系。(2).提出双超球SVDD推理模型鉴定宏基因组中DNA片段的物种多样性作为训练集的已测序微生物基因组在“种”、“属”甚至“目”的分类学层次上物种间的类内差异和类间差异没有明显界限。这导致现存的分类方法在这些分类层次上识别率较低。本文基于支持向量数据描述(SVDD)算法,结合系统进化树,提出了一种新的双超球SVDD推理方案对宏基因组中的基因片段进行种属鉴定。这种方案可以有效地避免一些误识别、漏识别现象,一定程度上提高了分类精度。(3).提出稳健支持向量域描述(WSVDD)模型鉴定宏基因组中DNA片段的物种多样性目前已有的分类方法在“属”的分类层次识别率低、在“种”的分类层次上还没有方法可以对其进行分类。这主要受以下几个因素影响,如DNA序列的长度,从DNA序列中提取的组成向量的可靠度,所选分类器对参考基因组的数字特征向量的描述能力等。据我们观察,现有的分类方法(例如,支持向量机,核近邻,朴素贝叶斯分类器等)在参考数据包含噪音的情况下,都无法有效地描述参考数据。然而,众所周知,参考基因组数据(细菌和古细菌的基因组)通常包含一部分横向转移基因(lateral gene transfer,LGT)片段,它们作为噪声阻碍着分类器获得更好的精确度。为了解决这个问题,本文通过对SVDD算法进行改进,提出了一种稳健支持向量域描述(WSVDD)算法来鉴定DNA片段所属的生物群落。它能够有效地避免那些异常值(横向基因转移)对训练数据的干扰,从而提高了分类器的数据描述能力。我们相信,本方向的研究能够推动宏基因组学及生物多样性、种群进化关系、功能活性等其相关研究的发展。同时,本研究也为未来工程实践中开发相关的电子产品奠定良好的理论基础。