基于特征向量的宏基因组测序序列分类算法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:cool_lei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
宏基因组测序序列分类问题是宏基因组学研究的一个重点问题。用实验方法进行分类代价高且速度慢,故利用分类算法进行分类的计算手段成为了一种趋势。主流的分类算法有基于比对的和基于结构的两类方法,前者需要和已知基因组进行比对,后者只需要特征向量信息即可。然而后者在低分类层次上的分类精度仅为60%左右,并且在大规模数据集上的时间开销也太大。基于结构的分类算法又有有监督和无监督之划分,我们研究基于结构的有监督分类算法。  本研究主要内容包括:⑴宏基因组数据的特征向量提取方法。针对宏基因组测序序列的结构特点,结合马尔可夫模型的概率转移矩阵性质,提出了一种基于马尔可夫模型的特征提取方法,得到了关于测序序列的特征向量集,验证了新提取的特征向量在不同的测序物种之间的区分特性,应用基于互信息选择的降维方法对特征向量进行降维处理。将新提出的方法和基于k-mer频率信息的特征提取方法应用到LIBSVM分类算法中,进行分类性能比较。实验结果表明,LIBSVM算法使用新方法产生的特征向量比使用基于k-mer频率信息产生的特征向量在分类精度上高出2%~3%,且分类运行时间也提高了4~5倍。⑵基于特征向量的SVM分类算法MarkovBinning。首先,对已知物种的特征向量集进行预处理,过滤掉噪声数据。我们定义了一种新的相似性度量方法KLDist距离,计算出中心特征向量进行噪声数据过滤,将过滤后的特征向量集作为SVM算法的初始训练集。为了加快训练过程,采用变步长的网格搜索法,改进了关于惩罚系数C和核函数参数γ的最优参数对(C,γ)的寻优方法。最后,使用提出的MarkovBinning算法对测序序列进行分类。实验结果表明,与TACOA算法、AbundanceBin算法和MetaCluster算法相比,我们的算法在分类精度上平均高出10%,且算法运行时间明显减少。
其他文献
由于传统的数据挖掘算法都面向静态数据,而数据库中的数据却日益更新,造成数据挖掘的结果不及时,从而影响了正确判断和决策,因此研究面向增量更新的数据挖掘算法具有重大的意
当前,SUN公司提出的J2EE(Java 2 Enterprise Edition)已经日渐成为企业Web应用的开发标准。J2EE以组件技术为基础,具有N层体系结构,为非常广泛的领域构建了一个完整的、面向
随着信息技术和移动互联网的发展,人与人、人与物、物与物的联系正在逐渐加深。无线传感器网络(WSNs)作为椎动物联网藩勃发展的关键性技术,吸引了学术界和工业界的广泛关注。
复杂可编程逻辑器件(CPLD)是目前应用最为广泛的可编程专用集成电路(ASIC)之一,特别适合于数字系统的设计和开发。液晶显示器由于具有体积小、重量轻、低电压、低功耗、低成
面向对象的开发方法是当前软件开发的主流,关系数据库是目前最主要的存储机制。本文比较了对象模型和关系数据模型处理数据的差异,对象模型基于软件工程的一些原理,而关系数据模
为了适应空间技术的发展,实现国际空间组织间的相互支持,我国在航天技术应用领域正在逐步采用空间数据咨询委员会(CCSDS)制定的高级在轨系统(AOS)系列标准。深入理解和掌握AO
信息技术的迅速发展大大加快了企业现代化和信息化的进程,以客户关系管理CRM(Customer Relationship Management)系统为代表的管理信息化使企业的运营由以产品为中心发展到以
今天的软件系统与以往不同,其所基于的计算机硬件平台正经历从集中封闭的计算平台向开放的Internet平台的转变。软件不再仅仅是信息的提供者,而是各种服务的提供者,在这样的
地质图件是表达地质体特征,地质体时空结构及地质过程产物最基本、最常用的工具,是各种地质工作成果的最基本表现形式。特别是石油勘探开发研究中,地质图件可以表达沉积、地层、
目前国内有不少相关的实训平台,给软件工程教学带来了一定的便捷性。但现有的软件开发实训平台大都存在系统功能单一,缺乏灵活性且仅停留在演示阶段等弊端,学生无法真正从中