论文部分内容阅读
近年来,microRNA(miRNA)的功能研究受到了研究人员的广泛重视。MiRNA是一类长度在22nt(核苷酸)左右的内源非编码小RNA,其参与了动植物的许多重要生命过程,通过抑制IE基因的翻译或是使其直接降解而达到转录后调控的作用。目前,由生命科学、计算机科学和统计学等多学科交叉产生的生物信息学在miRNA研究领域起到了巨大作用,使得有关miRNA的研究取得了飞速发展。本文主要研究了植物miRNA前体及其成熟体的计算预测方法、miRNA间功能相似性的计算方法和miRNA功能预测方法,主要工作包括以下三方面:构建了一个植物前体miRNA及其成熟体的集成预测模型。目前,由于大多数的预测模型是针对人类、小鼠等动物提出的,并且一般只预测前体miRNA(pre-miRNA),而对植物的研究相对较少。本文提取了新的152维序列及二级结构特征,通过改进传统的SVM-RFE特征选择算法得到B-SVM-RFE算法,并釆用该算法从152维特征中选择出最佳特征子集,最终基于SVM分类器训练得到集成预测模型mirPlantPreMat。在与其他预测模型的对比中,mirPlantPreMat取得了更优的性能。釆用9个不同的植物物种进行实验,mirPlantPreMat都取得了较好的结果,证明了本文实现的预测模型不仅高效可靠,同时也具有很好的推广能力。由于现有miRNA间功能相似性计算方法存在着大多不适合于植物、无法得到量化的结果及计算方法本身存在一定缺陷等问题。本文给出新的计算方法PPImiRFS。该方法基于加权的蛋白质相互作用网络及关图算法计算miRNA间的功能相似性,通过计算蛋白质间的基因本体语义相似性为蛋白质相互作用网络加权,并通过改进的广度优先搜索算法计算网络中蛋白质间的最短路径。通过与其它方法对比,证明PPImiRFS的性能显著优于其它方法。基于本文在植物miRNA功能相似性计算及前人在蛋白质功能预测上的研究成果,本文又实现了一个植物miRNA功能预测方法。该方法首先利用PPImiRFS计算得到miRNA间功能相似性度量,然后釆用基于聚类系数的阈值选择算法构建miRNA功能相似性网络,最终将直推式多标签分类算法应用于该网络,进而对miRNA潜在的功能进行预测。实验表明,在多个评价指标上,本文给出的方法都取得了非常满意的结果。