基于集成学习的宏基因组16S rRNA片段分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xieyuchun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着新一代高通量测序技术的高速发展,研究人员可以在短时间内,以低廉的价格,同时对多种微生物基因组进行测序,从而获取大量的生物测序数据。宏基因组学的研究学者直接从环境样本中提取全部DNA序列,利用高通量测序技术,获得环境样本中全部微生物的遗传信息,进而分析该微生物群落中物种的分布,丰度,以及整个群落的特征和功能。凭借16SrRNA测序片段所具有的良好特性,16SrRNA已经逐渐成为宏基因组学研究领域中鉴定物种类别的重要衡量标准。  本课题针对目前已有的宏基因组测序数据分析流程,通过分析找到这些分析流程中的不足并对其进行改进,改进构造新的分析工作流程,提高序列的分类的准确性和分类效率。全基因组在分析微生物群落时,由于全基因组的数据量庞大,所以利用全基因组仅能分析非常少的一部分物种。当需要进行分类的生物测序片段数量达到一定的数量级时,算法的时间效率上会出现瓶颈。本课题为了解决这些问题,设计了一种基于集成学习的宏基因组16SrRNA测序片段分类算法,并开展了实验研究。针对基于宏基因组的16SrRNA测序片段分类问题提出了利用哈希函数族对测序序列提取特征,通过减少不相似序列之间比对操作提高序列聚类算法效率。根据序列之间特征向量的相似性,将数据集进行预分块,在各个区块中进行序列的聚类操作,减少不相似序列之间的两两比对操作,由此大大减少聚类过程中不必要的计算量,从而提高聚类的计算效率。我们在处理预分区问题时,选择了基于k-mer分布的哈希特征来对生物测序片段进行预分区,保证各个区块中测序数据具有较高的相似性。本课题算法主要由宏基因组16SrRNA测序片段预处理、提取样本数据集特征向量、聚类算法的选择、对参考基因组特征提取与特征选择、利用参考基因组提取的训练分类模型、集成算法设计这五个部分组成。实验结果证明,在处理大规模的数据集时,基于集成学习的宏基因组16SrRNA片段分类方法具有比较高的分类准确率。
其他文献
无线局域网的发展使人们能够更方便、快捷、灵活地访问网络,随着无线局域网的迅速发展,以及在社会生活中的应用越来越广泛,无线局域网的缺点也逐渐显现出来。由于无线局域网是通
  智能代理利用自身的智能性,不但可以自主的检测到网络故障,还可根据“经验”(自动更新数据库,进行自学习),处理一些故障,将结果保存,以备它回到管理工作站时,将结果带回;如果检测
本文深入分析了IP网络多播安全问题,归纳出IP网络多播安全威胁的特点,目前IP网络针对多播技术缺乏有效的保护和控制。然后介绍利用IP多播发起的拒绝服务攻击,并对现有的解决方
  本文研究了服务器集群系统中的一些关键技术,并针对数字图书馆服务请求中对服务器资源与网络带宽耗用比较大的特点,以负载平衡算法中较优的加权最小连接数调度算法为原型,设
  由于网络的开放性和不可信任性,移动代理系统面临的种种安全问题已成为移动代理走向广泛应用的瓶颈。其中,恶意主机或执行平台对执行代理的攻击最为广泛亦最难防御。为了解
二十世纪八十年代以来,人们开始借助大规模计算机来求解各类复杂问题。在科学、工程和商业计算领域,还有很多问题难以用现有的超级计算机解决,如需要处理的海量数据资源分布
随着存储空间的增大和存储价格的下降,即使是一个较小的P2P用户群也会共享大量的数据。大量的共享资源使得P2P系统吸引了大量的用户,但困难的是如何在大量的共享资源中寻找用户
本文对MPLS BGP/VPN在路由器上的实现及多层VPN在企业网中的应用进行研究,内容如下:第一章为前占部分,主要是简单介绍与本论文相关的课题背景、工作内容以及工作成果和论文结构
传统的网络设备大多采用基于GPP或ASIC的嵌入式处理器。随着网络流量的迅速增长和网络业务的日益多样,它们在性能或灵活性上已难以满足应用需要。在这种背景下,兼具高速处理
本文研究现有的网络层安全服务框架IPSec,肯定其在网络层提供安全服务的优势,针对抵御报文假冒攻击所提供的数据源验证服务,分析其中不足之处,如无法提供安全的IP地址等。在面