基于局部特征的蛋白质三维结构相似性研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:vitor330
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生命体中蛋白质是组成一切细胞和组织的重要成分,是生命活动的承担者。已有生物学家证明了蛋白质结构和功能的统一性,即生物功能相似的蛋白质在结构上也是相似的,并且蛋白质的生物功能最终由其三维空间结构决定。因此,研究蛋白质三维结构的相似性对于发掘蛋白质生物功能以及理解生命体发展规律均有重要意义。现有的相关研究主要是基于传统计算的方法来比较蛋白质三维结构,但大多数方法往往容易忽略一些有实际生物意义的特征量,并且没有考虑数据的冗余性,导致计算的相似性不够准确,在计算上也比较耗时,难以满足对未知蛋白质日益增长的研究需求。因此本文在前人研究的工作基础上,将从以下两个方面进行研究:(1)自适应的局部特征频率向量(ALFF)。ALFF是本文提出的一种使用局部特征发生的频率来表示蛋白质的方法,首先可以通过蛋白质C_?原子骨架来计算C_?距离矩阵,用C_?距离矩阵划分出的部分具有代表性的子矩阵表示蛋白质的局部特征,子矩阵的大小m使用OTSU算法根据数据集的特点确定最合适的值,划分出所有可能的子矩阵之后使用Mean Shift算法对所有的子矩阵聚类,得到的k个聚类中心点就是所求的蛋白质局部特征。按照此方法,每个蛋白质都可以统计出其子矩阵在这k个簇中发生的频数,从而得到该蛋白质的ALFF,再利用余弦相似度求出两个蛋白质的ALFF的相似性,进而得到蛋白质的相似性。最后实验结果表明,ALFF和SCOPe数据库的蛋白质结构相似性分析在class、fold、superfamily、family分类下具有较高的一致性,相比LFF提升了0.7%、2.3%、2.8%、3.5%的正确率。ALFF总体上和TM-SCORE保持比较好的一致性,但在蛋白质进化关系方面,ALFF能计算出进化关系相差比较远的蛋白质之间的相似性,提升了模型的泛化能力。(2)基于卷积神经网络方法分析蛋白质三维结构。Protein Net是本文提出分类蛋白质三维结构的卷积神经网络模型,它可以从输入的蛋白质C_?距离矩阵中提取出局部特征,根据局部特征向量计算蛋白质三维结构相似性。首先将表示蛋白质三维骨架结构的C_?距离矩阵统一标准化成150×150的矩阵表示,接着把这些距离矩阵当成一幅幅“图像”输入到Protein Net中训练,模型训练完成之后,在网络模型中提取输出层的前一层得到一个1024维特征向量,根据特征向量使用余弦相似性公式计算出蛋白质的相似性。最后,实验结果表明,Protein Net可以很好地对不同家族的蛋白质分类,在家族层面的蛋白质三维结构相似性比较上,准确率远高于其他方法。
其他文献
随着工业的迅速发展,水体环境不断恶化。甲苯是一种芳香族有机化合物,虽然微溶于水,但是即使少量也会对人体造成伤害。因此,为确保供水安全,从水中去除这些有机污染物十分关键,而吸附法是目前对废水的处理方法中较常用的方法。还原氧化石墨烯比表面积较大,表面呈疏水性,因此对芳香族有机化合物有较强的的吸附能力,但是存在吸附后不易回收的问题,所以本文选择将氧化石墨烯与二氧化硅溶胶混合后快速凝胶,然后进行高温还原,
近年来研究表明,稀土-钛氧簇合物不仅具有丰富多样的结构,还具有潜在的发光性质。由于稀土-钛氧簇合物研究时间较短,体系尚不完善,因此对稀土-钛氧簇合物结构及性质的研究具
执行依据是由特定机关作出的生效的法律文书,是执行机关执行案件的根据,上面记载了权利义务的主体、内容等事项,是实现当事人权利的前提条件。执行依据须明确记载当事人之间的给付关系,以及享有权利和承担义务的具体内容、范围、标的等事项。但是,很多时候执行依据会出现表意模糊等问题,导致执行难的情况出现,从而引发执行效率低下,当事人权利不能得到实现,司法资源浪费等现象的发生。本文针对执行依据不明确导致执行难的情
Skew-gentle代数作为一种特殊的clannish代数,在带puncture的标记曲面上的丛范畴研究中有重要应用.在带有puncture的标记曲面的情形下,一个三角剖分可以给出一个skew-gentle
目的:探讨Her-2不同状态下乳腺癌基因拷贝数变异(Copy number variations,CNV)的分布,筛选影响Her-2阳性乳腺癌的关键基因,为Her-2阳性乳腺癌治疗研究奠定科学依据。方法:选取2018年1月1日—2018年12月31日我院乳腺癌组织和癌旁组织标本30例,采用全外显子高通量测序法检测DNA的CNV情况,并对Her-2不同状态乳腺癌的CNV进行分析。利用GO数据库、KE
近年来,世界环境问题日益严峻,为了世界环境和资源的可持续发展,各国、各行业都开始注重新能源方面的研究,使用电能代替化石能源已成为汽车行业和工程机械行业的重点研究方向
虚拟现实技术作为一种交叉型技术,它融合了计算机图形学、多媒体、人机交互以及网络等多种技术,广泛应用于多种领域。近年来虚拟现实技术发展迅速,同时也为医疗行业开辟了新
辅酶A(Coenzyme A,Co A)在多种细胞功能和代谢通路中发挥着至关重要的作用,准确识别Co A相关蛋白(Coenzyme A-associated proteins,CAP)有利于深入理解酰基转移、羧酸代谢、
随着晶体管研制水平到达纳米尺寸,电路可靠性问题愈发严重,负偏置温度不稳定性(Negative Bias Temperature Instability,NBTI)导致的集成电路功能退化成为其中最主要原因。NBTI效应对电路的影响主要表现为使晶体管阈值电压发生不可控变化,会极高概率增加电路的时间延迟和降低晶体管的性能。另外,电路板零件的焊接过程中,可能会出现例如焊接漏焊和错误焊接等缺陷,就可能影响到
贻贝仿生组织胶粘剂因其具有独特的湿态粘接性能而引起广泛关注,研究者通过将邻苯二酚基团引入高分子链段中,来获得突出的湿态粘结性能,但存在合成工艺复杂、合成过程中使用有机溶剂或所合成胶粘剂水溶性差等问题。此外,进一步改善湿态粘结强度和胶粘剂本身的生物功能特性仍是亟待解决的主要问题。本论文以左旋天冬氨酸(L-asp,L-aspartic acid)为原料,通过固相聚合的方法制备聚琥珀酰亚胺(PSI,po