论文部分内容阅读
宏基因组测序序列分类问题是宏基因组学研究的一个重点问题。用实验方法进行分类代价高且速度慢,故利用分类算法进行分类的计算手段成为了一种趋势。主流的分类算法有基于比对的和基于结构的两类方法,前者需要和已知基因组进行比对,后者只需要特征向量信息即可。然而后者在低分类层次上的分类精度仅为60%左右,并且在大规模数据集上的时间开销也太大。基于结构的分类算法又有有监督和无监督之划分,我们研究基于结构的有监督分类算法。 本研究主要内容包括:⑴宏基因组数据的特征向量提取方法。针对宏基因组测序序列的结构特点,结合马尔可夫模型的概率转移矩阵性质,提出了一种基于马尔可夫模型的特征提取方法,得到了关于测序序列的特征向量集,验证了新提取的特征向量在不同的测序物种之间的区分特性,应用基于互信息选择的降维方法对特征向量进行降维处理。将新提出的方法和基于k-mer频率信息的特征提取方法应用到LIBSVM分类算法中,进行分类性能比较。实验结果表明,LIBSVM算法使用新方法产生的特征向量比使用基于k-mer频率信息产生的特征向量在分类精度上高出2%~3%,且分类运行时间也提高了4~5倍。⑵基于特征向量的SVM分类算法MarkovBinning。首先,对已知物种的特征向量集进行预处理,过滤掉噪声数据。我们定义了一种新的相似性度量方法KLDist距离,计算出中心特征向量进行噪声数据过滤,将过滤后的特征向量集作为SVM算法的初始训练集。为了加快训练过程,采用变步长的网格搜索法,改进了关于惩罚系数C和核函数参数γ的最优参数对(C,γ)的寻优方法。最后,使用提出的MarkovBinning算法对测序序列进行分类。实验结果表明,与TACOA算法、AbundanceBin算法和MetaCluster算法相比,我们的算法在分类精度上平均高出10%,且算法运行时间明显减少。