基于多信息融合的生物大分子序列预测方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:A88851258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着测序技术的发展,生物大分子序列数量快速积累,迫切需要了解序列所蕴含的重要生命信息。近年来,生物大分子序列的结构与功能研究已经成为生物信息学领域研究的热点问题。目前,基于生物大分子序列和机器学习模型的方法是生物信息学领域中预测序列结构和功能的重要研究手段。本文从如何构建有效的序列向量化方法、分类算法、以及高质量数据集角度出发,对生物大分子序列预测的几个具体问题进行了深入研究,包括蛋白质结构类预测、蛋白质折叠模式类预测、细胞因子与受体相互作用预测、细胞穿透肽预测、以及microRNA前体预测。本文的研究内容包括以下几个方面:  第一,针对蛋白质结构类预测问题,目前现有预测方法普遍存在的问题是特征中包含信息单一导致特征的表达能力较低。为了克服这一问题,本文提出了基于序列与结构特征的蛋白质结构类预测方法RF_ PSCP。在该方法中,首先利用了基于多信息融合的特征提取方法,将蛋白质的初级序列信息、二级结构信息和序列结构信息融合到特征向量中,从不同角度更加全面刻画不同结构类间蛋白质序列的差异性;然后,将特征向量输入随机森林进行结构类预测。在10折交叉验证中,本文提出的方法RF PSCP在多个基准数据集上的预测准确率上均显著优于现有的方法,表明了方法的有效性。此外,在多个更新数据集上稳定的预测效果表明了方法良好的鲁棒性。  第二,在蛋白质折叠模式类预测领域中,目前基于机器学习的预测方法实际的预测效果并不理想。为了进一步提高方法的预测性能,本文提出了基于集成学习的蛋白质折叠模式类预测方法PFPA,从序列向量化方法与分类算法两个方面做了相应改进,从而提升了预测效果。在序列向量化方面,利用了两种新的向量化方法:基于PSI-BLAST和基于PSI-PRED的特征算法,使得特征向量充分包含初级序列信息、进化信息、以及局部和全局二级结构信息。在分类算法方面,本文采用了平均概率的集成策略将五种不同的基分类器结合,从而形成集成分类器对蛋白质序列进行折叠模式类预测。与现有方法在基准数据集上的比较,表明了本文提出的方法的优越性。  第三,针对细胞因子与受体相互作用预测问题,本文从蛋白质相互作用具有局部性特点出发,提出了基于局部进化特征的细胞因子与受体相互作用预测方法CRI-Pred。在该方法中,首次引入了蛋白质序列局部信息的概念。为了提取局部信息,利用平均分割的方法将位置特异性得分矩阵分成多个子矩阵,将两个进化特征模型(Pse-PSSM和AAC-PSSM-AC)应用于子矩阵中将蛋白质序列向量化,从而使得特征向量融合了蛋白质序列的局部保守信息、进化信息、以及序列的顺序信息。在分类器方面,本文采用随机森林作为分类器进行预测。实验结果表明,本文提出的方法在整体预测准确率指标上比现有预测方法高5.1%。  第四,在细胞穿透肽预测领域中,本文针对现有方法的一些不足做了相应改进,从而提出了基于随机森林的细胞穿透肽预测方法SkipCPP-Pred。在该方法中,本文提出了自适应k-skip-n-gram特征向量化方法,在n-gram模型基础上增加更多的距离和序列氨基酸间相关性,从而一定程度上解决了传统n-gram方法造成的特征空间稀疏问题。其次,在数据集构建方面,本文重新构建了一个新的数据集:降低样本的冗余,增加数据集样本量,提升正反例样本相似性分布,从而克服基于现有数据集构建的预测方法出现的“过预测”问题。为了验证方法的有效性,本文比较了SkipCPP-Pred与现有方法的预测效果。实验结果表明,SkipCPP-Pred比现有方法能够更加准确预测序列是否具有细胞穿透功能。  第五,在microRNA前体预测领域中,目前现有的预测方法普遍存在训练集中反例样本不具有代表性,导致预测方法泛化能力差的问题。本文提出了基于高质量反例的人类microRNA前体预测方法miRNAPre。该方法的研究重点是从反例选择的角度出发,提出了高质量反例挖掘方法,通过反复迭代的深度挖掘,从而克服现有反例样本过度依赖参数选择导致与正例样本差异性较大的问题。在预测方法的构建方面,基于多信息融合的方法将序列向量化为包含了多种不同信息的特征,以支持向量机分类器作为特征向量输入进行预测。与现有方法在多个的独立测试集上的比较结果显示miRNAPre均取得了更高的敏感性和特异性,实验表明了miRNAPre能够为生物实验提供可靠的microRNA前体候选预测服务。
其他文献
汽车电子嵌入式实时操作系统是汽车电子控制系统关键核心技术之一,也是国内外汽车电子产品竞争的焦点。为了满足我国汽车电子产业技术发展的需要,我校汽车电子与嵌入式系统研究
本论文中,首先提出了一种计算复杂性低而又有效的截断奇异值分解方法解决L2范数约束问题,用L曲线方法确定正则化参数,基于离体狗心脏数据集进行了实验,重建出了相应的心外膜电位
系统发育分析是生物学的一个重要研究领域,旨在重建所有物种的进化历史。系统发育树是一棵描绘物种进化关系的树,也叫做进化树。目前重建进化树的方法可以分为两大类:1)基于最优
MapReduce是一种并行分布式计算模型,用于大规模数据集的并行运算。它具有良好的可扩展性、容错性、可用性,现在,无论在工业界还是在学术界都得到了广泛的应用。MapReduce比较热
随着Internet技术的迅速发展,WWW的应用也越来越多,Internet上信息资源分布越来越广泛,种类越来越多,www已经成为大多数人获取信息的主要方式,但其信息其分布的广泛性和大量
随着智能手机、智能家居、智慧城市等这些词语的频繁出现,我们知道,智能化的时代已经离我们越来越近了。自然语言处理作为人工智能的一部分,在现今生活的各个方面发挥着重要的作
跳频扩频通信是目前国际上研究的热点课题。它具有抗干扰能力强、截获概率低、信号隐蔽和易于组网等优点,被广泛应用于军事和民用领域。扩频分直接序列扩频、跳频扩频、跳时
随着网络的发展和技术的进步,包括音频、视频在内的多元化通信方式成为下一代网络首要解决的问题,而IMS是下一代网络的核心,成为了当前各个标准机构、研究学者及运营商研究的热
在金融系统中,黑钱与热钱等资金异常的流动,严重的干扰了正常的经济秩序并导致财富流失。如何合理有效的对金融市场进行监测与监管,以维持正常的金融秩序,保护正常的金融行为
当前,随着计算机和通信技术的飞速发展,互联网已经成为人们日常生活中不可或缺的一部分。互联网的应用由以前简单的数据传输、到实时通信、再到现在的远程协作和控制,它的应