论文部分内容阅读
随着测序技术的发展,生物大分子序列数量快速积累,迫切需要了解序列所蕴含的重要生命信息。近年来,生物大分子序列的结构与功能研究已经成为生物信息学领域研究的热点问题。目前,基于生物大分子序列和机器学习模型的方法是生物信息学领域中预测序列结构和功能的重要研究手段。本文从如何构建有效的序列向量化方法、分类算法、以及高质量数据集角度出发,对生物大分子序列预测的几个具体问题进行了深入研究,包括蛋白质结构类预测、蛋白质折叠模式类预测、细胞因子与受体相互作用预测、细胞穿透肽预测、以及microRNA前体预测。本文的研究内容包括以下几个方面: 第一,针对蛋白质结构类预测问题,目前现有预测方法普遍存在的问题是特征中包含信息单一导致特征的表达能力较低。为了克服这一问题,本文提出了基于序列与结构特征的蛋白质结构类预测方法RF_ PSCP。在该方法中,首先利用了基于多信息融合的特征提取方法,将蛋白质的初级序列信息、二级结构信息和序列结构信息融合到特征向量中,从不同角度更加全面刻画不同结构类间蛋白质序列的差异性;然后,将特征向量输入随机森林进行结构类预测。在10折交叉验证中,本文提出的方法RF PSCP在多个基准数据集上的预测准确率上均显著优于现有的方法,表明了方法的有效性。此外,在多个更新数据集上稳定的预测效果表明了方法良好的鲁棒性。 第二,在蛋白质折叠模式类预测领域中,目前基于机器学习的预测方法实际的预测效果并不理想。为了进一步提高方法的预测性能,本文提出了基于集成学习的蛋白质折叠模式类预测方法PFPA,从序列向量化方法与分类算法两个方面做了相应改进,从而提升了预测效果。在序列向量化方面,利用了两种新的向量化方法:基于PSI-BLAST和基于PSI-PRED的特征算法,使得特征向量充分包含初级序列信息、进化信息、以及局部和全局二级结构信息。在分类算法方面,本文采用了平均概率的集成策略将五种不同的基分类器结合,从而形成集成分类器对蛋白质序列进行折叠模式类预测。与现有方法在基准数据集上的比较,表明了本文提出的方法的优越性。 第三,针对细胞因子与受体相互作用预测问题,本文从蛋白质相互作用具有局部性特点出发,提出了基于局部进化特征的细胞因子与受体相互作用预测方法CRI-Pred。在该方法中,首次引入了蛋白质序列局部信息的概念。为了提取局部信息,利用平均分割的方法将位置特异性得分矩阵分成多个子矩阵,将两个进化特征模型(Pse-PSSM和AAC-PSSM-AC)应用于子矩阵中将蛋白质序列向量化,从而使得特征向量融合了蛋白质序列的局部保守信息、进化信息、以及序列的顺序信息。在分类器方面,本文采用随机森林作为分类器进行预测。实验结果表明,本文提出的方法在整体预测准确率指标上比现有预测方法高5.1%。 第四,在细胞穿透肽预测领域中,本文针对现有方法的一些不足做了相应改进,从而提出了基于随机森林的细胞穿透肽预测方法SkipCPP-Pred。在该方法中,本文提出了自适应k-skip-n-gram特征向量化方法,在n-gram模型基础上增加更多的距离和序列氨基酸间相关性,从而一定程度上解决了传统n-gram方法造成的特征空间稀疏问题。其次,在数据集构建方面,本文重新构建了一个新的数据集:降低样本的冗余,增加数据集样本量,提升正反例样本相似性分布,从而克服基于现有数据集构建的预测方法出现的“过预测”问题。为了验证方法的有效性,本文比较了SkipCPP-Pred与现有方法的预测效果。实验结果表明,SkipCPP-Pred比现有方法能够更加准确预测序列是否具有细胞穿透功能。 第五,在microRNA前体预测领域中,目前现有的预测方法普遍存在训练集中反例样本不具有代表性,导致预测方法泛化能力差的问题。本文提出了基于高质量反例的人类microRNA前体预测方法miRNAPre。该方法的研究重点是从反例选择的角度出发,提出了高质量反例挖掘方法,通过反复迭代的深度挖掘,从而克服现有反例样本过度依赖参数选择导致与正例样本差异性较大的问题。在预测方法的构建方面,基于多信息融合的方法将序列向量化为包含了多种不同信息的特征,以支持向量机分类器作为特征向量输入进行预测。与现有方法在多个的独立测试集上的比较结果显示miRNAPre均取得了更高的敏感性和特异性,实验表明了miRNAPre能够为生物实验提供可靠的microRNA前体候选预测服务。