论文部分内容阅读
随着新一代高通量测序技术的高速发展,研究人员可以在短时间内,以低廉的价格,同时对多种微生物基因组进行测序,从而获取大量的生物测序数据。宏基因组学的研究学者直接从环境样本中提取全部DNA序列,利用高通量测序技术,获得环境样本中全部微生物的遗传信息,进而分析该微生物群落中物种的分布,丰度,以及整个群落的特征和功能。凭借16SrRNA测序片段所具有的良好特性,16SrRNA已经逐渐成为宏基因组学研究领域中鉴定物种类别的重要衡量标准。 本课题针对目前已有的宏基因组测序数据分析流程,通过分析找到这些分析流程中的不足并对其进行改进,改进构造新的分析工作流程,提高序列的分类的准确性和分类效率。全基因组在分析微生物群落时,由于全基因组的数据量庞大,所以利用全基因组仅能分析非常少的一部分物种。当需要进行分类的生物测序片段数量达到一定的数量级时,算法的时间效率上会出现瓶颈。本课题为了解决这些问题,设计了一种基于集成学习的宏基因组16SrRNA测序片段分类算法,并开展了实验研究。针对基于宏基因组的16SrRNA测序片段分类问题提出了利用哈希函数族对测序序列提取特征,通过减少不相似序列之间比对操作提高序列聚类算法效率。根据序列之间特征向量的相似性,将数据集进行预分块,在各个区块中进行序列的聚类操作,减少不相似序列之间的两两比对操作,由此大大减少聚类过程中不必要的计算量,从而提高聚类的计算效率。我们在处理预分区问题时,选择了基于k-mer分布的哈希特征来对生物测序片段进行预分区,保证各个区块中测序数据具有较高的相似性。本课题算法主要由宏基因组16SrRNA测序片段预处理、提取样本数据集特征向量、聚类算法的选择、对参考基因组特征提取与特征选择、利用参考基因组提取的训练分类模型、集成算法设计这五个部分组成。实验结果证明,在处理大规模的数据集时,基于集成学习的宏基因组16SrRNA片段分类方法具有比较高的分类准确率。