基于深度学习的蛋白质—配体结合残基预测

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:fanyanbing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划测序工作完成,蛋白质的相关研究已成为当今生命科学的主要研究内容之一。配体结合蛋白在诸多生物过程中发挥关键作用。蛋白质-配体结合残基的识别对于理解蛋白质功能有重要意义。由于传统测定方法的技术细节复杂且成本高昂,处理海量的蛋白质需要计算方法的参与。已知的计算方法均基于传统机器学习,可被粗略地分为基于序列的方法和基于三维结构的方法,两者的根本区别在于是否使用三维结构,前者已在一系列结合残基预测任务中胜过后者。然而,已知的蛋白质序列在数量上远远超过已知的蛋白质三维结构,随着深度学习技术的发展,基于序列的方法有相当可观的提升空间。因此,有必要对基于深度学习的蛋白质-配体结合残基预测开展研究。本文的主要工作及贡献如下:·提出了一种基于深度学习的蛋白质-配体结合残基预测方法。该方法(Deepsi)仅使用了序列信息,所用特征共计7类,分别为位置特异性打分矩阵、溶剂可及性、蛋白质二级结构、二面角、保守性、残基氨基酸类型和位置编码。Deepsi可处理变长序列,其深度网络采用了全卷积架构,主要由不同规格的卷积层堆叠而成,特征最终由一组1×1卷积核整合并由softmax归一化得到所有残基关于结合残基的概率分布。隐层表示的有效上下文范围随层数的增长而扩大,大范围有效上下文能够捕捉两个残基之间的长距离依赖,通过调整层数和卷积核大小可精确控制依赖的最大距离。目前已知的最优方法COACH及其部分子方法被选为实验基准。测试实验在一个基本测试集和三个扩展测试集上进行,其中基本测试集包含151条非冗余蛋白质。实验表明Deepsi无需依赖任何采样手段即可在严重倾斜的训练集上正常拟合并获取良好的泛化性能,其MCC和精确率相对于基准模型的提升分别不低于0.05和16%。·在结合残基聚集性的基础上提出了另一种基于深度学习的蛋白质-配体结合残基预测方法。该方法(i Deepsi)使用的特征与Deepsi相同。由于结合残基的位置分布表现出聚集性,i Deepsi在原有深度网络中增加了新模块,从上下文标签或预测结果中提取特征。i Deepsi通过改变其深度网络的前向传播机制提高了其在测试过程和生产环境中的并行度。i Deepsi与Deepsi共用所有数据集,同样可在严重倾斜的训练集上正常拟合。实验表明i Deepsi相对于基准模型在MCC和精确率方面的提升分别不低于0.07和19%。在不使用包括三维结构在内的任何模板的前提下,Deepsi和i Deepsi在性能上相对于已提出的各类方法均有显著提升,包括最具代表性的COACH。此外,本文还讨论了一种训练集增量化方案,其略微提高了预测性能。
其他文献
脊椎动物中,白细胞介素10(IL-10)是一种抗炎因子,在广泛的免疫反应中起抑制作用。白介素1受体相关激酶1(IRAK1)参与IL-1R/TLR炎症信号的转导,在调节机体的自身免疫过程有重要
随着社会的发展,人们对通信系统传输数据的速率和稳定性也有了更高的要求。毫米波由于能够提供丰富的频谱资源而受到广泛关注,但是其物理特性决定了它需要与MIMO(多输入多输
电子书解析及排版技术是指根据相应的电子书格式,按照一定的规则对电子书内容进行解析和排版的技术,是电子书阅读器研究和开发的关键技术。目前常见的电子书格式有TXT、PDF、
目的:本研究通过分析长链非编码RNA Linc01021和微小RNA miR-576/miR425在大肠癌与癌旁正常粘膜组织中的表达差异及它们之间的相关性,研究了Linc01021和miR-576/miR-425表达
目的研究以PLGA-PDPA纳米粒作为光热转化材料,利用剪切波弹性成像监控肝组织的光热消融治疗,以探索新的肝脏光热消融治疗实时监控方法。方法利用双乳化法制作PLGA微球,在碱性
断奶仔猪腹泻(Post-weaning diarrhoea,PWD)是影响仔猪生产效益的主要因素,蛋白质是仔猪生长的必需营养物质,可通过结肠发酵、过敏反应等引发仔猪腹泻。而结肠作为吸收水分的
目的:越来越多的证据支持长链非编码RNA ZFAS1(LncRNA ZFAS1)可作为蛋白调节剂介导多种癌症的发生发展,然而其在结直肠癌中的生物学功能与分子调控机制尚不完全清楚,因此,挖
目的:探究金雀异黄素(genistein,GEN)对脂多糖(lipopolysaccharides,LPS)活化的巨噬细胞凋亡的影响及是否与调节TIPE2/Akt通路有关。方法:1.将1 000 ng·mL-1LPS作用于RAW264.7细
随着数据信息化的日益发展,人工地从数据中筛选出需求的信息已经变得十分困难,为此研究者以统计学思想为基础提出了机器学习方法,而其中分类、聚类和回归分析等知识发现方法更是获得了较为广泛的应用。但原始数据中可能存在的冗余及偏差信息会导致知识发现算法难以获得预期的结果,因此预先对数据进行必要的处理在机器学习领域的研究中同样十分重要。以属性选择算法为代表的数据预处理技术被提出用来从从原始数据中提取出更加重要
背景和目的药物的靶向治疗是近些年来研究的热点,索拉菲尼作为一种口服多重激酶抑制药,具有抑制肿瘤细胞增殖和血管形成的双重作用,作为治疗肝癌和转移性肾细胞癌的一线药物,