基于pairwise核的蛋白质相互作用对称预测研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：chasel

【摘要】

：

【作者】

：

于建涛

【出处】

：

哈尔滨工业大学

【发表日期】

：

2020年01期

【基金项目】

：

国家自然科学;黑龙江省杰出青年基;；

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

蛋白质是生命活动的直接执行者,蛋白质之间的相互作用是蛋白质实现其功能的重要途径之一,因此构建蛋白质相互作用（protein-protein interaction, PPI）网络是了解分子生物功能、洞悉细胞生命规律的前提,也是研究生物体内疾病的产生与发展、进而从事药物分子靶标识别的关键。蛋白质相互作用预测方法是近年来生物信息学家关注的一个热点问题,它可以有效克服生物实验检测方法周期长、代价昂贵、假阳性率高的缺点。而对称性预测、核函数的选择是基于机器学习核方法进行蛋白质相互作用预测的两个关键因素,它直接关系到预测模型的有效性及准确性。本文以蛋白质相互作用的对称性为切入点,研究了pairwise核在保证蛋白质相互作用对称预测方面的必要性,揭示了传统核方法以及传统反例数据集对蛋白质相互作用预测的偏置影响,提出了解决偏置的方案及算法。在此基础上,将无偏置预测模型应用于大豆物种的蛋白质相互作用预测,取得了较好的效果。第一,揭示了传统核方法在蛋白质相互作用预测过程中对蛋白质次序的依赖偏置,在充分分析现有pairwise核函数构建规律的基础上,提出了一种新的用以保证蛋白质相互作用对称预测的pairwise核函数,并利用其构建了一种多核组合模型,较之已有的方法,该模型具有更高的预测准确率。蛋白质相互作用具有典型的对称特点,即“蛋白质A与B相互作用”等同于“蛋白质B与A相互作用”。在传统的机器学习方法中,当蛋白质以顺序拼接方式构成训练/测试样本时,普通核方法由于无法识别一个样本由两个蛋白质组成的事实,从而对蛋白质的次序变得较为敏感,由此产生预测偏置。这种偏置表现为分类器可能产生“蛋白质A与B相互作用”而“蛋白质B与A不相互作用”的相悖结论。 Pairwise核克服了传统核以样本作为相似度度量单位的局限,采用蛋白质作为相似度度量单位,有效保证了蛋白质相互作用预测的对称性。本文强调了pairwise核在实现对称预测方面的必要性,总结了现有的几种pairwise核函数在对称性、正定性、均衡性方面的一般特点,分析、提炼了它们在改善预测性能方面的一般规律。在此基础上,提出了一种新的pairwise核函数——AMPK（Arcsin Maximum Pairwise Kernel）,并分别基于Cosine核、拉普拉斯核构建了AMPK的多核组合模型,该模型在蛋白质复合体相互作用预测中取得了比已有的核方法更优的预测性能。第二,揭示了在简单序列特征（三联氨基酸）的传统数据集上,采用pairwise核方法进行蛋白质相互作用预测存在严重偏置。提出了一种构建合理反例集的方法,从而使分类器的预测性能够得到公正、客观地评价。由于传统方法所采用的正、反例数据集分别具有无标度（scale-free）网络以及随机网络性质,一部分称之为hub结点的蛋白质在正、反例集中出现次数差异较大,形成所谓“强势样本”。受训练集中“强势样本”的影响,pairwise核分类器倾向于将含有hub结点的测试样本预测为正例、而将含有非hub蛋白质的测试样本预测为反例——这种偏置效应在基于简单序列特征（即三联氨基酸）的数据上表现得尤为明显,从而导致对分类器预测性能过于乐观的估计。基于此,本文提出了一种针对正例集无标度网络结构的、以“平衡随机采样”方式构建合理反例集的方法。通过保证每个蛋白质在正、反例集中出现的次数基本一致来消除正、反例数据集的结构差异。在合理反例集上,分类器的预测性能可以得到公正、客观的评价。最后证明了复杂序列特征（Pfam域）对预测偏置的影响程度以及它在预测蛋白质相互作用中的积极贡献。第三,首次基于新近测序的大豆基因组数据,将传统的同源PPI推理方法与本文的无偏置pairwise核预测模型相结合,推理、预测得到10 426条大豆蛋白质相互作用数据。大豆蛋白质相互作用网络构建是大豆基因组测序工作完成以后的一项重要任务。本文首次以大豆基因组数据为来源,采用同源PPI（interolog）推理方法与基于域特征的pairwise核预测方法相结合的方式,得到上万条大豆蛋白质相互作用数据。首先,以拟南芥、酵母、人类三个源物种的PPI为源数据,寻找它们在大豆物种中的同源PPI,据此得到大豆蛋白质相互作用候选集;然后,提出跨物种的训练/测试模式,利用域及其相互作用在物种间表现出的保守性,在源物种数据上建立关于InterPro域的无偏置pairwise核预测模型,而后将预测模型应用于大豆PPI候选集,以筛除其中的假阳数据。交叉验证结果表明,预测结果具有较高的可信性,从而表明本文所采用的方法在新近测序物种的蛋白质相互作用预测方面具有较高的参考价值。最后分析了大豆蛋白质相互作用复合体的抗性功能,发现了大豆抗性基因/蛋白质之间的相互作用规律。

其他文献

外柄式人工髋关节假体的生物力学研究

学位

斑马鱼Tol2转座子介导的基因捕获及foxj1基因功能研究

斑马鱼胚胎的早期发育过程是一个复杂的生物学过程,有多条信号通路及通路中的众多关键基因参与并调控着胚胎发育的全过程。通过大规模化学诱变（ENU诱变）和反转录病毒插入诱变,已经筛选到很多斑马鱼胚胎发育的突变体,揭示了一批相关基因的功能。本论文的研究是利用Tol2转座子介导的基因捕获的方法产生GFP表达特异的转基因鱼家系,并筛选斑马鱼胚胎早期发育的突变体,继而分析相关突变基因在胚胎发育过程中

学位

单粒子格林函数在电子动量谱学中的应用

电子动量谱学（Electron Momentum Spectroscopy, EMS）以其特有的同时测量物质中电子的能量分布和动量分布的优势,已发展成为研究物质的电子结构、电子关联效应和电离机制的强有力手段,其应用价值已经在物理、化学、生物等多个学科的发展和应用中得到了充分体现。目前,电子动量谱学的实验研究已经发展到高效率、高性能的第三代动量谱仪,可以开辟一些过去无法展开的新的研究领域和方向。

学位

初中游记类文言文的教学策略研究——以《岳阳楼记》为例

＜正＞《辞海》中以“游记，散文的一种。文笔轻快、描写生动、记述旅途见闻……也表达作者的思想情感”等内容，阐明了“游记”的概念。学者王立群则认为“游记”借助散文的整体框架，对作者的游踪、外部景观进行细致描写，最终升华主观情感，并强调了“游记”是一种记体文学样式。从以上的阐释和说明中可以看出，

期刊

双色荧光RNAi技术平台的建立和抗SARS-CoV RNAi的研究

RNA干涉（RNAi）是由双链RNA引起的同源RNA降解的现象,和病毒基因同源的小双链RNA可能成为新型的抗病毒药物。为了研制抗SARS-CoV的RNAi,建立了由两种质粒pcDNA3.0/GFP-X及pcDNA3.0/DsRed-U6-Y组成的反式双色荧光RNAi技术平台。pcDNA3.0/GFP-X载有与绿色荧光蛋白（GFP）基因位于同一读框的靶基因（X）;在pcDNA3.

学位

局部时的变差与It（？）公式新的推广

经典的It（?）公式（1944）需要函数的两次可微，它在随机分析及其应用，以及与分析，偏微分方程，几何，动力系统，金融和物理的几乎所有的应用和联系中都起到了核心的作用。但是It（?）公式对于函数需要二次可微的限制在应用中通常会遇到一些困难。所以把它扩展到不是很光滑的函数在研究很多问题如有奇异点偏微分方程及金融数学中都是很有用的。一般来说，对于任意的绝对连续的函数它的导数f′几乎处处存在，和一个连续

学位

幽门螺杆菌中性粒细胞激活蛋白口服核酸疫苗实验研究

学位

硫族元素硒和碲的高压物性研究

本论文通过高压拉曼光谱、同步辐射角散X射线衍射以及能散X射线衍射等多种实验方法对硫族元素硒和碲的高压结构相变以及其它物性的变化进行了系统的研究。利用高压拉曼光谱和角散同步辐射X射线衍射研究,对无定形硒的压致结晶以及结构相变进行了研究,首次给出了无定形压致结晶的拉曼光谱证据,确定了无定形硒压致结晶后的晶体结构。利用近红外830 nm激光作为激发光源,首次获得无定形硒的压致共振拉曼

学位

肝再生磷酸酶3的活性研究

肝再生磷酸酶3（Phosphatase of regenerating Liver 3,PRL3）是蛋白质酪氨酸磷酸酶家族的一个重要成员,分子量为20 KDa,其编码基因位于染色体8q24.3,和其亚家族另外两个成员（PRL1、PRL2）的氨基酸序列同源性超过78%,除了具有蛋白质酪氨酸磷酸酶活性保守序列外,在C端都有一个CCAX结构域。PRL3基因在转移性结肠癌患者中高水平表达,表明其与结肠癌的

学位

Syntaxin和Munc18的相互作用及其在胰腺β细胞分泌中的功能研究

胰岛素是机体最重要的激素之一, 它调节机体的血糖稳定、促进细胞代谢、调节细胞的分裂分化和生长发育。胰岛素储存在致密核心大囊泡中,通过囊泡分泌释放到细胞外。胰岛素的释放需要经过囊泡转运、锚定、启动和融合等多个步骤。Syntaxin 1A （Stx1A）和 Munc18a在囊泡的转运和细胞分泌中发挥着关键的调控作用。然而它们

学位

基于pairwise核的蛋白质相互作用对称预测研究

与本文相关的学术论文