蛋白质相互作用网络中关键蛋白质和蛋白质复合物识别算法

来源 :山东工商学院 | 被引量 : 0次 | 上传用户:beryl1830
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生物体的物质基础,生物体的活动离不开蛋白质的相互作用。蛋白质若要发挥生物学功能,既能够以单一蛋白质作为关键蛋白质的方式作为生物体生存的基础,也能够以多个蛋白质聚合组成蛋白质复合物的方式完成生物功能。从蛋白质个体的角度,蛋白质可分为两类,关键蛋白质和非关键蛋白质,若生物体缺失了关键蛋白质会使其死亡或是致病,所以准确地识别关键蛋白质可帮助了解细胞功能的研究,并对药物设计提供极其重要的指导。从蛋白质群体的角度,大多数单一蛋白质个体无法独立进行生物学活动,必须与其他蛋白质结合形成蛋白质复合物实现生物学功能,来实现生物学功能和作为生物活动过程载体,因此有效地识别蛋白质复合物不但可以加深对生物学中生物组织原理和功能机制的理解,还能够诊断治疗各类疾病。海量的蛋白质相互作用(Protein-Protein Interaction,PPI)数据随着高通量技术快速发展被挖掘出来,为提出蛋白质相互作用网络中关键蛋白质识别和蛋白质复合物的计算性识别方法提供了数据基础。除生物学实验能够较准确的识别关键蛋白质和蛋白质复合物外,计算性方法也能够高效识别关键蛋白质和蛋白质复合物,其主要利用蛋白质相互作用网络(Protein-protein Interaction Network,PIN)拓扑特征。随着生物学实验的发展,生物学数据日渐丰富,融合多种生物学信息的识别关键蛋白质和蛋白质复合物算法研究也因此得以发展。随着研究的进展,学者发现识别方法的性能不仅取决于拓扑特征的使用,还包括结合蛋白质生物特征信息的方法。现有的关键蛋白质识别方法研究,在蛋白质节点的高阶邻居结构分析以及整合多元生物信息和网络拓扑信息策略有待提高。而现有的蛋白质复合物识别方法研究,在蛋白质复合物与关键蛋白质间相互影响及联系分析有所欠缺,在蛋白质个体和复合物整体构成的关系分析有所不足。针对以上现有问题,本文以真实蛋白质相互作用网络为研究基础,研究如何提高识别关键蛋白质和蛋白质复合物的准确度。文中简要介绍关键蛋白质和蛋白质复合物的研究现状、相关生物学特征和目前主流的识别方法。对关键蛋白质和蛋白质复合物识别问题进行描述,为设计关键蛋白质和蛋白质复合物识别方法做铺垫。本文的研究以蛋白质相互作用网络拓扑结构以及生物学信息数据为主要视角,利用网络拓扑理论和数据融合方法对识别关键蛋白质进行研究;在深入分析网络拓扑以及生物特征的前提下,寻找蛋白质复合物和关键蛋白质的外在联系,对蛋白质个体和复合物整体的联系进行分析,基于核-附属结构设计计算蛋白质节点和复合物整体联系的方法识别蛋白质复合物。本文的主要工作和创新点如下:第一,针对现有关键蛋白质识别方法对拓扑特征挖掘欠缺等问题,基于对PIN中h-准团结构与关键性的相关性分析,和PPI之外其他生物信息与PIN融合或单独度量蛋白质关键性的研究,提出基于h-准团结构的多数据源融合方法(h-quasi-cliques and Fusion of multiple data source,QCF)。该方法评估蛋白质h-准团的拓扑结构对关键性的影响,构建新型网络后,在此基础之上计算拓扑特性,再融合生物信息度量从多角度识别关键蛋白质。首先,QCF方法结合PIN与基因表达谱,构建了动态PIN,降低静态网络中噪声的影响;其次,在动态PIN中,结合h-准团拓扑特征与蛋白质功能注释,计算蛋白质拓扑得分;最后,融合拓扑得分和三种蛋白质生物学信息分数,计算蛋白质关键性。为验证QCF性能,在3个数据集上,与MON、TEGS和LBCC等16种方法进行测试比较。结果表明,在识别数量、F度量和ACC等性能指标上,QCF具有很好的识别性能,前100和前600的平均预测准确度为88.3%和67.7%,F度量平均为0.5674,平均Acc平均为0.7581,优于现有其他方法。第二,针对现有的方法大多只搜索局部拓扑信息,将密集子图挖掘为蛋白质复合物,而忽略了蛋白质复合物的内在组成结构的问题,提出基于关键蛋白质的核附属结构识别方法(Core Attachment and Essential Protein,CAEP)。方法通过在动态蛋白质相互作用网络上,使用关键蛋白质和GO注释加权,结合核-附属结构识别蛋白质复合物。首先,定义蛋白质相互作用边赋予权值的方法,以关键蛋白质与其他生物学信息调整权重,给动态蛋白质相互作用边赋权重,基于预设固定结构和共同邻居识别蛋白质复合物的核,以核为基础识别附属蛋白质。最后,将所识别的蛋白质复合物核和附属蛋白质结合形成蛋白质复合物,并进行冗余处理。为评估该方法的效果,在两个酵母数据集DIP和BioGRID上将CAEP与其他9种识别方法进行了比较。实验结果表明,CAEP在precision、recall、F1和Acc性能检测指标上优于所比较的识别方法。DIP数据集下与COACH方法相比,在标准蛋白质复合物数据集NewMIPS上四种性能指标平均提升15.53%,在CYC2008上平均提升15.03%。在不同蛋白质相互作用网络数据集上,将本文提出的两种识别算法与其它现有同类型算法分别进行识别效果的对比,其结果充分说明本文所提出的两类识别算法效果出色。同时,在关键蛋白质方面,本文还在识别过程中对蛋白质相互作用网络上出现的一些现象进行分析,讨论哪些情况下蛋白质是关键的;在蛋白质复合物方面,分析了对众多识别出的蛋白质复合物之间的相似性,证明其可能是真正的蛋白质复合物并具有不可替代性。此外,所提出的识别蛋白质复合物和关键蛋白质算法对具有类似社区结构复杂网络中的目标识别、分类聚类的研究中均具有拓展应用意义,是可以作为具有实际意义的工具使用的方法。
其他文献
《收起你的控制欲——倾听真实的自我》这本书描述了人们如何通自己的饮食行为更好地了解自身内在的需要,从而达到治愈五大创伤:背叛、抛弃、侮辱、不公、排斥,做回真实的自我的目的。作者通过简单的语言,结合自己遇到的实例,让人们意识到自己心灵存在的问题,并通过具体的建议让人们能够缓解甚至解决这些问题。这篇翻译报告由两个部分组成。第一部分为原文和译文,其中法语原文和对应的译文均为前两章;第二部分是报告,首先介
学位
新型的富氧型半导体卤氧化铋BixOyBrz(X=Cl,Br,I)材料,其结构类似于卤氧化铋(Bi OX,X=Cl,Br,I),都是由铋氧层与卤素离子交替排列形成的类石墨烯结构,由于在其内部形成了内建电场,使得化合物产生的光生电子空穴能得到有效分离,从而使这类材料展现出了良好的光催化性能。在这些材料中,Bi OBr、Bi4O5Br2和Bi5O7Br等由于具有合适的能带结构,因此显示出更加独特的光学、
学位
随着科技的蓬勃发展,进入全媒体图像时代,精英艺术开始向大众艺术转变,当代艺术走向了日常审美化的发展道路,在某种意义上成为了符号运作的场域。全球化经济对娱乐和市场文化产生冲击,更注重消费者的心理诉求,人类步入后消费时代,受消费文化影响,当代艺术出现了符号图像的“快餐化”现象。本文从当代艺术发展的背景为切入点,以大众化审美趋势、时代下人类心理诉求、后消费时代语境以及大众传媒的背景为研究基石,从新艺术史
学位
目标跟踪是计算机视觉领域的基础性研究问题,被广泛应用在当今社会的众多领域中。目标跟踪即在视频序列的初始帧中给定目标特征,跟踪器在后续帧中预测该目标的位置、尺寸和轨迹等信息。近年来,基于孪生网络的跟踪算法相比其他类型的跟踪算法表现出了优异的跟踪性能,但是在面对目标快速运动、形变、尺度变化、旋转等复杂问题时,跟踪性能仍然有待提高。本文针对孪生网络系列的跟踪算法进行了深入的研究分析,特别研究了近期热门的
学位
次氯酸(HOCl)作为生理体系中重要的活性氧物种之一,能够维持细胞内的氧化还原平衡,并具有抗菌杀菌的免疫作用。但当体内HOCl浓度过表达时可能会引起一系列疾病,比如类风湿关节炎及动脉粥样硬化。采用简单、快捷、高效的方法实现生理体系中HOCl的精确检测,对相关病理生理过程的监测具有重要价值。在各种检测方法中,荧光分析法凭借灵敏度高、选择性好、响应快速、实时监测等优点一直备受广大科研工作者的青睐。吩噻
学位
在现实生活中,人们利用摄像机拍摄照片时,总是希望拍摄照片中同一场景下的所有事物都是清晰的,以此来获得最佳的成像效果。但由于摄像机的镜头受到景深的限制,可能会造成镜头无法同时聚焦同一场景下的所有目标,这导致拍摄的照片中部分区域清晰,部分区域模糊,成像观感不佳。为此,研究人员们开始着手设计算法改善这一情况,多聚焦图像融合算法是这些算法中最常见的,它能够将同一场景下不同聚焦区域的多张图像融合成一幅全区域
学位
近年来,随着深度学习和预训练技术的不断进步,自然语言处理的研究取得了优异成绩。文本表示和短文本分类对自然语言处理领域中的自动翻译、文本摘要、情感分析等任务产生了重要的影响。由于自然语言具有复杂性、多样性等特点,使得目前文本表示存在“维数灾难”、“向量高度稀疏”和“浅层语义”等问题,从而导致文本向量不能充分表达出文本的语义信息。由于短文本具有数据量少、数据特征稀疏等特点,导致目前短文本分类的效果不理
学位
切换系统是一类特殊的混杂系统,这类系统的稳定性问题一直是相关领域的研究热点.本文主要针对几类切换系统的稳定性问题展开研究.第一章阐述相关研究背景、系统描述和开展本研究所需的预备知识.第二章基于Φ-依赖平均驻留时间策略,研究具有稳定与不稳定子系统的脉冲切换奇异系统的稳定性问题.结合多不连续Lyapunov函数方法获得所研究系统的稳定性准则.所获得的结论与现存结果相对比,具有较低的保守性和较好的实用性
学位
水质监测是水资源保护利用的重要一环,可以监督工厂排污情况保证环保政策落实,也能在发生水污染事件时事前提供预警、事中提供水污染动态情况、事后监督水污染治理情况。目前我国已对重点水域进行了水质监测点位的覆盖,但我国水域范围广大,还有很多水域未得到有效监测。针对上述问题,本文设计了基于NB-Io T的水质在线监测系统,该系统主要由水质监测终端、NB-Io T模块、云平台和Web端软件组成。为水质监测终端
学位
近年来互联网快速发展,网络文本数量激增,对文本分类技术的需求也日益显著。文本分类技术迅速发展,基于Transformer的预训练模型:BERT、RoBERTa,在文本分类任务以及在诸多自然语言处理任务中,已取得令人满意的结果,但也存在以下不足:1)Transformer限制了输入长度,对较长的输入直接截断会导致信息丢失,以及批处理训练使[CLS]分词包含冗余信息,该分词作为分类特征影响分类准确率;
学位