基于注意力机制的DNA结合蛋白以及蛋白质作用位点预测

来源 :厦门大学 | 被引量 : 0次 | 上传用户:qi_anwei1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是承担人类生命活动的基础物质,往往通过与其他生物大分子相互作用发挥其生物学功能,例如细胞传递、信号传导等。DNA结合蛋白就是蛋白质中能与DNA结合发生作用的一种特殊蛋白质;蛋白质之间也会发生相互作用,预测它们相互作用的位点能加深对蛋白质相互作用原理的理解。但是随着蛋白质数据爆炸式地增长,依靠现有的实验方法并不能满足生物工作者的需要,所以设计一种高效便捷的蛋白质功能及位点预测方法成为生物信息学领域的重要研究课题。本文结合深度学习分别对DNA结合蛋白和蛋白质作用位点展开研究。全文工作包括以下三个部分:第一个工作是针对DNA结合蛋白预测任务。我们致力于开发一个基于序列的预测方法,而不需要通过繁琐的步骤获取复杂的特征。主要内容是使用蛋白质的原始序列特征和预训练特征,构建了一个多维度卷积神经网络,结合BiGRU和注意力机制提取全局特征,从而达到预测DNA结合蛋白的目的。第二个工作是针对预测蛋白质相互作用位点任务。我们提出使用基于图卷积网络的模型GCNPPIS进行蛋白质相互作用位点预测,首先通过残基的共现关系和残基-蛋白质之间的关系将蛋白质序列转化成图结构,继而将其放入半监督的图卷积网络中训练,为研究蛋白质相互作用位点任务提供了新的处理方式。第三个工作是针对上述任务的优化。我们提出了模型HANPPIS,进一步将氨基酸序列分割为层次结构,并结合蛋白质的二级结构、亲水性等多种特征,通过分层注意力机制对其进行训练和预测,使得模型能够对不同的氨基酸给予不同程度的关注度,并且提高了模型的可解释性。本文对现有数据进行了测试验证,通过多个对比实验表明了模型的有效性和鲁棒性,并为DNA结合蛋白分类和蛋白质相互作用位点预测任务提供了新颖高效的计算方法,对未来的生物实验具有一定的辅助作用。
其他文献
本文以新型冠状病毒肺炎疫情为案例,通过动力学建模来探究新发传染病的传播特征。将人群总体分成五个部分:易感者S,潜伏者E,无症状感染者A,感染者I和恢复者R,首先建立了一类SEAIR传染病仓室模型,分别在连续时间和基于复杂网络的离散时间两种情形下研究了模型的动力学性质。运用Jury判据、Routh-Hurwitz判据及LaSalle不变集原理,对于连续模型当σm>αmγ+σβ时,模型只存在一个无病平
学位
肿瘤是一种长久以来严重危害人类健康的疾病。上世纪中叶以来,肿瘤干细胞理论备受关注,传统的肿瘤干细胞理论认为,肿瘤组织是层次化的,肿瘤干细胞具有最高的分化潜能,通过细胞分化生成下游的肿瘤细胞。但越来越多的研究结果表明存在逆分化现象,可将已经分化的肿瘤细胞恢复到肿瘤干细胞表型。为了研究逆分化现象,我们建立了一个带有逆分化机制的随机过程模型,此模型以肿瘤干细胞数量的变异系数为研究对象,观察变异系数随逆分
学位
图的zeta函数最早是由Ihara提出的,通过研究p-adic群,Ihara研究了正则图的zeta函数,后人称为Ihara-zeta函数.随后关于图zeta函数的研究层出不穷:Hashimo-to讨论了半正则二部图的zeta函数;Bass将正则图上的zeta函数推广到一般图上.他将一个无限乘积转化为一个与邻接矩阵和度矩阵相关的多项式,这是非常重要的结论,为得到一般有限图的zeta函数提供了简便的方
学位
阿尔茨海默病(Alzheimer’s disease,AD)是1907年德国精神病学家Alosis Alzheimer首先发现和报道的,是老年人常见的神经系统变性疾病。它的病理特征是神经纤维缠结和老年斑的形成,它们分别与tau蛋白过磷酸化和Aβ积累相关。关于阿尔茨海默症的发病机理有很多,比较常见的是β淀粉样沉淀假说,它认为脑内β淀粉样多肽(Aβ)聚集形成老年斑,老年斑具有神经毒性,进而引起神经细胞
学位
含金属高分子展现出令人意想不到的各种优秀性质,因此得到了人们越来越广泛的关注。碳龙配合物是全新的M?bius金属芳香化合物家族,存在各种独一无二的性质,其中包括近红外光热转换效应。热响应高分子是一类在温度变化刺激下能够做出响应性行为的高分子。本论文的目的在于将十二碳龙配合物的光热转换性质引入到热响应高分子中,制备功能独特的近红外光热响应含金属高分子。其中:第一章为绪论,主要介绍了与本论文相关的研究
学位
非线性光学晶体作为一种重要的信息功能材料,其先决条件是具有非中心对称的晶体结构。高效定向设计合成具有非中心对称晶体结构的化合物仍是当前研究的热点和难点。研究发现,具有立体化学活性孤对电子的阳离子(Bi3+、Te4+等)与阴离子配位时极易形成不对称的结构基元,能够显著增加化合物形成非中心对称晶体结构的几率。因此本文在磷酸盐基础上,通过引入Bi3+、Te4+阳离子,以期设计合成具有非中心对称晶体结构的
学位
有限混合模型在聚类和分类中有着重要的作用,是聚类重要方法之一,可以用来处理多个混合分布类型的数据。基于混合模型的应用十分的广泛,但也存在一些问题。比如应用最广的EM算法进行参数估计时会对初始值很敏感,传统的聚类方法如K均值聚类、层次聚类法等无法获得聚类特征重要性。尖顶平板最早被提出来是在线性回归中做特征选择,也可以用于混合模型中。在此情况下,本文选用有限混合模型同时进行特征选择,采用贝叶斯方法获得
学位
为了解决严重的环境污染问题,迫切需要开发一些可再生清洁能源来替代化石燃料。电解水技术因其能产生具有高热值的可持续清洁氢能而备受关注。其中,析氧反应(OER)由于涉及的反应动力学比较缓慢复杂,严重制约了电解水技术的实际应用。因此,研究出高活性、廉价、稳定的OER电催化剂迫在眉睫。过渡金属磷酸盐由于具有高活性和良好的动力学特性备受关注。可以通过使用不同的有机膦酸盐配体,对其基团、结构等进行调控,优化其
学位
为了研究受精卵的胚胎发育过程,生物学家运用4D共焦影像技术,在单细胞水平对秀丽隐杆线虫的基因表达动态行为进行定量观测。这种数据有以下三个显著特点:第一是时空异质性;第二是高噪声;第三是树形结构。本论文旨在通过发展统计聚类算法,对发育过程中的基因表达模式进行探究。首先,我们运用样条拟合方法对单细胞高噪声数据进行降噪;然后,我们将细胞分裂分化过程抽象成一个二叉树模型,并对树形结构数据进行分枝处理;随后
学位
黄金具有规避风险和保值的作用,在金融市场或者国际局势动荡时,国家和投资者往往会选择购买黄金。因此,预测黄金价格具有实际意义。本论文针对2010年至2019年的COMEX黄金期货进行研究,通过分析黄金的历史价格波动,发现黄金价格受到外界因素的影响,且价格序列具有非线性特征。由于近年来深度学习发展迅速,在处理非线性时间序列上表现较好,故本论文选用深度学习的模型进行预测。首先利用线性插值填补黄金期货和1
学位