基于谱隐马尔可夫模型的蛋白质序列模体识别方法研究

来源 :大连理工大学 | 被引量 : 4次 | 上传用户:hhttllzzwei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
利用机器学习等计算方法识别蛋白质序列模体,是在一组具有共同特性的蛋白质数据中发现具有生物学意义的序列模式,目前已成为生物信息学领域的一个研究热点。蛋白质序列模体对于理解蛋白质翻译后修饰、相互作用和亚细胞定位等细胞功能以及疾病诊断等方面的研究具有重要的作用。在使用蛋白质序列识别模体时,存在着数据不平衡、数据缺乏等问题。传统的蛋白质序列模体识别采用基于正则表达式和位置权重矩阵的方法。相较于这两种简单的模型,隐马尔可夫模型(Hidden Markov Model, HMM)作为一种序列数据处理和统计学习的重要概率模型具有更丰富的表达,其已被广泛应用于语音识别、行为识别、文字识别、故障诊断以及生物序列分析等领域。本文研究了基于谱隐马尔可夫模型(profile HMM)的机器学习算法,并将其应用于蛋白质序列模体识别中,主要包括:1.针对蛋白质亚细胞器靶向模体识别中存在的数据不平衡问题,提出了一种均衡采样策略下的靶向模体识别算法。该算法在模拟细胞内蛋白质分选途径的基础上利用profile HMM的判别式训练区分不同亚细胞器的靶向模体。在数据预处理阶段采用基于模拟进化的过采样方法处理多类数据不平衡问题;在profile HMM的训练阶段引入随机欠采样处理正负类间的不平衡问题。实验结果表明,在识别9类蛋白质亚细胞靶向模体的任务中,与其它没有考虑数据不平衡问题的识别算法相比,该算法发现的模体更加保守,并且恢复了更多的已知靶向模体。此外,在使用该算法所识别的靶向模体预测蛋白质亚细胞定位时,少数类亚细胞位置上获得了更高的预测精度和召回率。由于模拟进化过程中会产生噪声序列,本文进一步采用主动学习方法从合成序列中选择信息量丰富且具有代表性的样本来减小噪声对靶向模体识别的影响。结果表明改进算法识别出了更多的显著性靶向模体,所识别的靶向模体的平均位置保守性更高且更有助于蛋白质亚细胞定位预测;2.为了提高多类型功能模体的识别效果,提出了一种基于profile HMM选择性训练的多类型功能模体识别算法。首先,由于蛋白质序列模体主要位于蛋白质的无序区域内,且模体残基的进化保守性高于其周边的残基,采用有序区域覆盖和局部相对保守性覆盖可以有效地提高训练序列的信噪比。这将减少模体偶然出现的次数,相应地增加多次观测到一个给定模体的可能性并使其更容易被识别。文中采用的被覆盖序列处理方法不仅可以减少训练profile HMM的计算量,而且保证了基于profile HMM的模体识别算法的性能;其次,通过profile HMM选择性训练方法引入序列的进化权重使进化过程中较重要的蛋白质序列在识别模体时得到更多的关注。实验结果表明,基于profile HMM选择训练的模体发现方法补充了现有方法在识别复杂模体时的不足,并为多类型功能模体的分析提供了另一种方式;3.针对具有相同功能相似表达模式的变体模体识别中存在的数据缺乏问题,提出了一种基于profile HMM扩展训练的变体模体识别算法。首先,采用平均无序谱和模体位置的统计显著性检验系统地研究了模体与蛋白质无序区域的关系,在蛋白质固有无序区域预测工具IUPred的默认参数下对训练序列进行有序区域覆盖以此提高序列信噪比;其次,在蛋白质有序区域覆盖的基础上对训练集合进行扩展,以增加训练数据的数量用于训练profile HMM;最后,通过训练判别式profile HMM来区分这些变体模体。在37个变体模体数据集上的实验结果表明,与生成式模体识别算法相比,蛋白质有序区域覆盖和训练集合扩展有助于解决判别式模体识别算法中存在的问题,使其更有效地区分表达模式差异较小的变体模体。
其他文献
介绍了高光注塑成型技术原理,构建了高光注塑成型产品必须满足的传统注塑成型产品质量的评价体系,并着重介绍了表面光泽度、熔接线、表面浮纤和表面硬度等高光注塑成型产品的主
三维反蛋白石结构(3DIO)是一种特殊有序结构的多孔纳米材料,具有独特的物理性质和潜在的应用价值,近年来受到了国内外科研工作者的广泛关注,已成为材料领域的热点研究方向之一
审计成果是审计工作价值的体现,构建合理的内审成果运用体制,通过对审计成果正面、反面的运用,发挥内审工作的价值,一直是内审部门的难点。本文基于基层央行内审工作的现状和
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近些年来,随着国产医学的进展,孕产妇保健及胎儿监护水平都有了很大的提高,为更准确地掌握胎儿宫内窘迫(胎窘)发生的时间,分析导致胎儿宫内窘迫的诱因,本文回顾性分析了1995年1月-19
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
我国社会不断地发展,越来越重视创新型人才的培养。如何强化对学生思维的创造性培养,使其能够更好的适应时代的发展,这是我们当下“马克思主义哲学”的教学过程所面对的难题,
我国企业在企业文化建设方面虽然已取得重要成就,但是必须承认我国企业文化建设同国外先进企业相比仍然存在着不小的差距,其广度与深度还不能有效适应建设现代企业的客观需求
针对简单遗传算法在解决作业车间生产调度问题时存在收敛效率低与过早收敛的局限,将一种改进的遗传算法--"双链遗传算法"应用于求解作业车间生产调度问题.与简单遗传算法相比