基于机器学习的蛋白质二级结构和相互作用预测

来源 :哈尔滨工业大学 | 被引量 : 5次 | 上传用户:sven1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
二十一世纪是信息技术时代,同时也是生物技术时代,生物信息学正是二者的有效结合,它利用计算机科学技术解决生物学中的各种问题。随着人类基因组计划的完成,生物学走向以功能基因组学为标志的后基因组时代。作为后基因组时代的一个研究分支,蛋白质组学的研究扮演着重要的角色,这是由于生物体所执行的各种生命活动都离不开蛋白质以及它们之间的相互作用的参与。  随着蛋白质测序技术、X-射线晶体衍射技术和蛋白质功能分析方法的日益发展和成熟,人们可以获得大量的蛋白质序列、结构和功能数据,这给我们创造了一个机会:采用数据驱动的方法(如机器学习技术)来预测未知的蛋白质的结构和功能。本文采用机器学习的方法对蛋白质组学研究中的一些重要问题进行了深入研究。本文的研究内容包括以下几个部分:  第一,利用模式挖掘算法为每个物种构建了类似人类语言的词典——蛋白质模式词典,并对每个模式词条赋予相应的二级结构信息。针对蛋白质二级结构预测这一生物信息学中的经典问题,提出了一种基于蛋白质模式词典的二级结构预测方法,并结合隐马尔可夫模型为蛋白质确定最佳的二级结构序列。这种基于蛋白质模式词典的二级结构预测方法可以有效地解决传统基于单个残基的预测方法所存在的问题,在修正的SOV(Segment Overlap Measure)量度上,可以有效地提高预测的性能。  第二,目前在国际上不存在用于蛋白质相互作用预测的标准训练集,而很多研究者从蛋白质相互作用数据库提取的训练样本包含大量的假阳性和假阴性。针对该问题,本文采用了von Mering为酵母蛋白质相互作用数据集中的每个样本赋予的不同可信度,并基于蛋白质亚细胞位置信息为每个反例样本赋予不同的可信度。在使用这些数据时,为不同可信度的样本赋予不同权重。最后本文对基于AR(Attraction-Repulsion)模型和最大似然估计的两种相互作用预测方法引入加权的思想,提出加权AR模型和加权最大似然估计方法,其可以更加准确地估计模型的参数——蛋白质域相互作用概率。  第三,由于蛋白质相互作用研究还是一个新的研究问题,因此已标注的蛋白质相互作用数据集还很不完善,与此同时,存在大量未标注数据。自学习可以很好地结合标注样本和大量未标注样本,通过迭代学习的过程,不断地从未标注样本中获得潜在的相互作用并用于训练。该方法能够有效地降低训练过程对标注样本的数量需求,在蛋白质相互作用预测问题上具有重要的应用价值。实验结果表明,利用未标注样本的自学习方法比单纯利用标记样本的有监督学习方法得到的模型具有更好的预测性能。  第四,传统的蛋白质相互作用位点预测都是作为残基分类任务解决的,每个残基类别的确定没有考虑相邻残基类别的影响,但事实上,序列相邻或者空间相邻的残基的类别之间是有关联的。针对这一问题,本文采用条件随机域这一自然语言领域中常见的序列标注方法对蛋白质序列上的相互作用位点进行标注。给定一个蛋白质,抽取位于蛋白质表面的残基序列片段并将其作为一个整体,条件随机域方法能够对该序列片段进行整体性的标注,得到最佳的残基类别序列。实验结果表明,这种基于条件随机域的蛋白质相互作用位点预测方法具有较好的鲁棒性,取得了比传统的分类方法具有更好的预测性能。
其他文献
工厂各车间选址、医院布局、电脑键盘分布设计、任务分配调度等都可归结为二次分配问题。在理论上,二次分配问题属于组合优化问题,存在“组合爆炸”现象。归因于NP-hard属性,很
手语识别研究的目的是增进聋人与听力健康人之间无障碍的交流,提高计算机对人体语言的理解能力。非特定人手语识别是推动手语识别系统实用化所必须解决的问题。目前,非特定人
语音识别是计算机技术的一个重要发展方向,是指机器通过学习来实现从语音信号到文字符号的理解过程,也就是让计算机听懂人的话,并做出正确的反应。语音识别作为一门交叉学科,与声
传统的基于内容的图像检索系统返回给用户的是按照与查询图像相似性大小排序的目标图像序列,而目标图像之间的相似性在系统中被忽略掉,基于聚类的图像检索系统返回给用户的是
随着Web资源的不断丰富和增加,Web站点结构变得越来越复杂,传统的Web站点缺乏智能性和主动性,因此,面对复杂而庞大的万维网,人们不容易找到自己感兴趣的信息,同时Web站点和Web服务
无线局域网技术使得网络的接入方式不再受物理线路的局限,嵌入式技术使得通信设备向着微型化、低功耗、高性能的方向发展。本文研究的地铁无线通信系统正是无线局域网与嵌入
Web页面检索和推荐是搜索引擎中网络信息处理的重要组成部分,它可以自动地从网络文档中发现和抽取用户感兴趣的信息,对于构建主题式的搜索引擎具有重要作用。本文对主题式搜
手语是用手形动作辅之以表情姿势由符号构成的比较稳定的表达系统,是一种靠动作/视觉交际的语言。手语识别可以辅助聋人,通过计算机提供一种有效的、准确的机制将手语翻译成
目标跟踪技术是机载光电系统的核心技术之一,该技术用于在机载环境下完成地面背景的机动目标跟踪。本研究旨在改善该系统现有跟踪技术,提高单目标长时跟踪的性能。目前机载平台
GPS导航系统已经成为在精确打击武器方面有着广泛的应用。如果能成功破坏GPS系统的工作,就能大大减少新一代精确打击武器的效果,削弱敌方的侦察、调度、后勤保障等对于战争来说