基于集成学习算法的若干生物信息学应用研究

来源 :上海大学 | 被引量 : 0次 | 上传用户:huangjh9246
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪后期,由于人类等生物物种基因组学以及生物科学技术的飞速发展,生物信息发生了惊人的增长,这极大地丰富了生物科学的数据资源,并随之诞生了一门新兴的交叉学科:生物信息学,其目的在于通过对生物学实验数据的获取、加工、存储、检索与分析,揭示数据所蕴含的生物学意义。数据挖掘技术用于在数据中发现潜在有用的知识,在生物信息学研究当中,正发挥着越来越重要的作用,而且取得了丰硕的成果。本文应用集成学习方法来对生物信息中的若干问题进行讨论。本文的主体工作分为四个部分: 1.用集成学习算法预测蛋白质结构和功能定位。随着生物技术的不断发展,越来越多的蛋白质序列被测定出来,探索利用理论及计算方法来研究蛋白质结构和功能定位具有重要意义。本文从蛋白质的一级序列出发,基于氨基酸组成进行蛋白质序列特征编码,使用了AdaBoost与Bagging这两种集成学习算法来对蛋白质的结构类型、膜蛋白类型和蛋白质亚细胞定位进行预测。在建模过程中,分别使用了RandomForest,KNN和C4.5三种不同的弱学习算法来作为基本分类器,并用基于10组交叉验证法的计算结果对建模参数进行优化。结果表明: (1)用AdaBoost-RandomForest算法预测蛋白质结构类型时,预测结果良好,对于所选用的两个标准数据集,其留一法预报准确率分别可以达到94.18%和85.9%,优于先前文献报导的预报结果;(2)用AdaBoost-C4.5算法预测原核和真核蛋白亚细胞定位时,其留一法预报准确率分别达到91.80%和80.80%,优于先前文献报导的预报结果;(3)用Bagging-KNN算法预测膜蛋白类型问题时,其留一法预报准确率可以达到84.42%,优于先前文献报导的预报结果。根据以上所建立的预测模型,我们同时开发了相应的在线预报系统。 2.用集成学习算法研究小分子的生物功能。研究小分子生物功能,在分子生物学领域能帮助人类理解生命现象,在医学领域帮助人类认识疾病机理。由于通过实验来发现小分子的生物功能会耗费大量的人力、物力和财力,且具有一定的盲目性和风险性,因此,用集成学习方法来研究这个问题具有实际意义。本文中我们首先研究了小分子代谢途径类型的预测问题,提出了基于官能团组成的小分子编码方法,用AdaBoost-C4.5算法建模,其交叉验证预报准确率达到74.05%,对独立测试集的预报准确率达到75.11%。然后,我们又研究了小分子与酶相互作用的预测问题,用AdaBoost-C4.5算法建模,其交叉验证预报准确率达到81.76%,对独立测试集的预报准确率达到83.35%。结果表明,集成学习算法可以用来研究小分子的生物功能,所建模型有很好的预测性能。此外,我们根据所建立的小分子代谢途径类型和小分子与酶相互作用的预测模型,同时开发了相应的在线预报系统。 3.运用集成学习算法AdaBoost来研究苯酚类化合物毒性机理预测的问题。我们从文献中收集了274个苯酚化合物,计算了45个分子描述符,用基于互信息增益的CFS(Correlation-based Feature Subset)算法筛选出9个分子描述符。基于这9个描述符,我们分别以C4.5,RandomTree,RandomForest和KNN四种算法作为基本分类器建立AdaBoost模型,经过优化和验证后,最终选用C4.5为基本分类器建模。最后,又与SVM和KNN算法的预报性能做了比较,结果表明AdaBoost算法在苯酚类化合物毒性机理预测中,有良好的预报能力,其交叉验证和对独立测试集的预报准确率分别达到96.3%和92.8%。基于该研究内容,建立了相应的在线预报系统。 4.使用mRMR-KNN集成方法研究HIV-1蛋白酶的裂解位点预测。首先,使用AAindex的531个氨基酸残基指数对8肽进行编码,然后使用mRMR特征筛选方法得到了500个特征。在此基础上,使用改进的Wrapper搜索方法得到了含有364个特征的子集。最后用最近邻方法(KNN)建模预测HIV-1蛋白酶裂解位点,其留一法测试和对独立测试集的预报准确率分别可以达到91.3%和87.3%。通过对500个特征进行生物学分析,我们发现:(1)P1位点和P2’位点对于HIV-1蛋白酶底物的特异性所作贡献最大,(2)P1位点上的氨基酸残基主要是疏水性残基,而P2’位点上的氨基酸残基主要由二级结构决定,以上两点结论与先前通过实验所得到的文献结论相吻合。本工作结果表明:mRMR方法结合改进的Wrapper方法能够对生物数据集进行有效的特征筛选;在此基础上建模,不仅可以得到满意的预测结果,而且所选的特征具有生物学意义。因此,mRMR方法有望成为生物信息学领域特征筛选的一个重要方法。
其他文献
本文通过对荣华二采区10
期刊
作为可替代水源,再生水利用可以有效地缓解水资源的短缺。目前,再生水主要回用于工业、农灌、景观和城市杂用水等低质水方面。但是,城市再生水水质复杂,作为绿化用水存在一定风险。所以研究再生水作为绿地灌溉用水对土壤、植物、微生物及地下水的影响十分必要。通过试验研究,得到以下结论:(1)在设定的灌溉强度下,再生水渗滤液中的TN浓度、TP浓度、TDS浓度和NO3--N浓度均高于自来水灌溉下渗滤液中的浓度,并且
蛋白质在生物材料表面的吸附是材料接触生物体内环境后发生的首要反应,是衡量材料生物相容性的一个重要指标。材料表面的化学组成和拓扑结构都会影响蛋白质吸附以及后续的细
生态工业园区是依据清洁生产要求、循环经济理念和工业生态学原理而设计建立的一种新型工业园区。福田保税区则是经国务院批准设立的、海关实施特殊监管的经济区域,是我国目前
盐度是限制植物生长的主要环境因素。而生长在热带、亚热带海岸潮间带的木本植物群落红树林一般生长于具有一定海水盐度的特殊生境,已特化出一套有别于陆生或淡水生植物的适应
本论文以燃煤烟气Hg排放标准做出明确规定为背景,对麦草制浆黑液对除汞效果的影响和相关机理进行了分析探讨。利用现有的鼓泡塔反应器,结合制浆黑液与Hg的化学反应特征,考察了黑液中不同成分对于Hg0的吸收反应的效果,结合气液传质、化学动力学、化学热力学、电化学、表面吸附理论等对这一过程的机理进行了探讨,试验研究结论如下:(1)黑液中氯化物、溴化物和硫酸盐类物质对除汞的过程均有影响,其主要作用是促进了汞的