【摘 要】
:
跨膜蛋白通常需要在脂质双分子层中形成稳定的寡聚物以激活某些特定的生物功能,例如:部分配体只与跨膜蛋白的二聚物结合以调控特定信号在脂质双分子层中的运输。癌症、糖尿病和囊性纤维化等疾病都与寡聚物模态造成的受体功能障碍直接相关。建立一套基于跨膜蛋白序列的寡聚物模态及其基序预测算法,对理解跨膜蛋白的生物功能及其靶向药物的研发有着重要意义。许多基于模式识别与机器学习理论的寡聚物模态预测模型和基序搜索算法被提
论文部分内容阅读
跨膜蛋白通常需要在脂质双分子层中形成稳定的寡聚物以激活某些特定的生物功能,例如:部分配体只与跨膜蛋白的二聚物结合以调控特定信号在脂质双分子层中的运输。癌症、糖尿病和囊性纤维化等疾病都与寡聚物模态造成的受体功能障碍直接相关。建立一套基于跨膜蛋白序列的寡聚物模态及其基序预测算法,对理解跨膜蛋白的生物功能及其靶向药物的研发有着重要意义。许多基于模式识别与机器学习理论的寡聚物模态预测模型和基序搜索算法被提出且取得了优秀的性能。然而,现有的寡聚物模态预测模型仅采用离散频率特征量化蛋白质序列,忽略了决定跨膜蛋白寡聚物稳定性的跨膜域残基顺序信息。此外,现有的基序搜索模型依赖大量的同源序列以搜索具有高保守性的子序列图案,并且无法进一步区分具有明确功能的基序和不相关的子序列图案。随着注意力机制被广泛应用于深度模型中,一个可行的寡聚物基序预测方案是在跨膜蛋白的寡聚物模态预测中,利用注意力机制定位其高权重的子序列图案作为潜在的寡聚物基序。本文围绕跨膜域预测问题和寡聚物基序预测问题,提出了基于注意力机制和Global-Local双层结构的特定子序列定位模型。实验结果表明本文提出的定位模型在跨膜蛋白序列上实现多个跨膜域的准确定位,并且该模型在单程跨膜蛋白的跨膜域上成功聚焦已知的大部分二聚物基序。本文的主要研究内容分为以下两部分。(1)基于自注意力机制和Global-Local结构建立新型的跨膜域定位模型GLMFD。跨膜域在跨膜蛋白中按一定规则的氨基酸残基分布组成,Global-Local结构便于模型提取跨膜域的局部子序列图案特征和全局上下文信息。GLMFD模型提出新的迫一惩戒和迫零惩戒用于实现多个跨膜域的同时定位。实验结果表明GLMFD模型取得63.6%的跨膜蛋白类标预测准确率、57.2%的跨膜域数量预测准确率和6.471的平均位置偏差值。我们设计了三组对比实验分别用于证明惩戒项对定位模型的必要性,跨膜蛋白序列上下文信息的重要性以及子序列边界模糊性对局部窗口选取方式带来的影响。(2)基于自注意力机制和Global-Local Bi-LSTM结构建立寡聚物模态及其关键基序预测的GLTM模型。针对跨膜域的寡聚物基序预测任务,GLTM模型相比GLMFD模型有以下三个改进点:第一,跨膜域内的氨基酸残基具有强耦合效应,Local层改用Bi-LSTM增强子序列间的关联性。第二,采用非固定步长的局部窗口选取方式并在One-hot编码中添加了重复度状态以实现新型的数据增强方法。第三,GLTM模型提出了新的位置惩戒项用于学习已知基序的图案模式,以避免注意力机制的惰性定位。实验结果表明,结合了自我惩戒项和位置惩戒项的GLTM模型在97.37%预测精度的基础上,成功定位了大部分已证实的寡聚物基序。可视化结果表明位置惩戒项可以用于鼓励注意力机制聚焦指定的子序列图案。
其他文献
篮球运动是我国青少年喜闻乐见的体育项目,2018年11月教育部发布《青少年校园篮球教学指南(试行)》,全力推动小篮球运动发展。2020年9月国家体育总局和教育部联合印发《关于深化体教融合促进青少年健康发展的意见》,提出加强学校体育工作,开足开齐体育课,帮助学生在体育运动中享受快乐、健全人格、增强体质。《意见》的颁布对学校体育的课程体系、培养目标、教学内容、教学方法提出了更高的要求。当前《体育与健康
本文主要是通过理清安徽池州傩文化的发展脉络,分析梳理其中的重要代表形式即安徽池州傩面具艺术,并对其艺术元素进行提取整合,探究在现行审美原则之下将这一传统文化元素与现代日用瓷完美结合的可行性方法。本文结合具体实例,阐述了池州傩面具艺术元素在现代日用瓷运用中应遵循的创作原则,并对三套现代日用瓷作品的设计构思与创作过程展开详细论述,旨在通过生活中常见的陶瓷产品向大众传递传统傩文化的艺术魅力,创新性的解决
金属材料运用到美术创作中的历史悠久,早在六朝时期就已经运用到佛教美术中的壁画和雕塑创作了。随着艺术形式的丰富与创新,对金属材料在艺术创作中的运用与探索一直是艺术家所关注的内容,艺术家旨在通过新材料、新形式开创新的艺术语言,使绘画语言能够更加丰富多样。近代以来,金属材料也备受一些艺术家的重视,成为绘画语言的新载体,新材料的出现,给美术创作带来新的可能性。铜箔作为美术创作中的一种表现形式多样、装饰效果
本学位论文利用cut算子,在偏序集上引入网的(拟)下极限收敛概念,讨论了它们的一些性质,特别地,对任意包含于σ2-拓扑的序相容拓扑τ,我们证明了:(1)一个偏序集P是τ-连续的当且仅当S-收敛关于τ是拓扑的当且仅当P是交τ-连续的且下极限收敛关于τ∨ω(P)是拓扑的;(2)一个偏序集P是τ-拟连续的当且仅当GS-收敛关于τ是拓扑的(3)一个交τ-连续偏序集P是τ-拟连续的当且仅当拟下极限收敛关于τ
贵定县作为贵州省内重要的交通咽喉要道,有“贵阳门户”、“黔中咽喉”的美名。贵定县具有浓厚的历史文化底蕴和灿烂丰富的民间艺术文化,布依山歌——十八调作为贵定县布依族的非物质文化遗产,也是唯一一个传统音乐类非遗项目,是贵定布依山歌的重要名片和音乐代表。它包括十八种不同的曲调,篇幅短小、曲调优美,歌词没有固定的模式,一般由演唱者根据需要选择曲调进行即兴编唱。十八调的创造主体是全体布依族劳动人民,其演唱内
体育中考考试制度发展至今经历多次改革,伴随着社会各界的关注体育中考体系逐步完善,体育中考的实施对促进青少年体质健康和引导青少年积极参加体育锻炼中发挥举足轻重的作用。2020年云南省玉溪市对体育中考考试方案进行改革,基于此背景下如何提出相应的教学方法、发展对策,是云南省初级中学面临的重要课题。本文通过实地考察法、问卷调查法、访谈法、数理统计法等研究方法,研究新方案实施以来对云南省玉溪市体育教师、师生
在复杂网络中,通常使用节点来表示实体,用连边来表示实体之间的关系。网络是对数据进行表示和分析的常用结构。网络分析对于理解复杂系统的内部机制具有重要意义。经过多年研究,学者们发现,社区结构是复杂网络普遍具有的特性之一,即大部分的网络都具有社区结构。社区检测意在从复杂的网络中寻找可能相关的联系,挖掘网络中的社区结构,以帮助分析网络。作为网络分析的重要内容,社区检测吸引了各行业研究人员的关注。但随着网络
InGaN和AlGaN是GaN基LED器件中的关键材料,但目前对InGaN和AlGaN热输运性质的研究还比较少,且多集中于热导率的测量和LED器件的设计,缺乏对材料热导率变化机理的系统探索。本文采用第一性原理计算方法结合声子玻尔兹曼输运方程,围绕GaN、InGaN和AlGaN的热输运问题,从晶体结构、热导率的声子贡献、声子输运性质和电子性质等方面进行了深入研究,本文研究结果揭示了GaN合金材料热导
本学位论文引入了F-分配偏序集的概念,讨论了它的一些性质,并研究了几类代数偏序集之间的关系。首先证明了偏序集p是F-分配的当且仅当由P中所有有限集生成的cut构成的集族也是F-分配的;然后讨论了预代数偏序集和Frink拟代数偏序集之间的关系,证明了偏序集P是预代数的当且仅当P是交预连续和Frink拟代数的;最后讨论了强代数偏序集和广义强代数偏序集之间的关系,证明了偏序集P是强代数的当且仅当P是预代
本学位论文主要利用Nevanlinna值分布理论和Hadamard因子分解定理研究了两类Fermat型微分差分方程解的精确表达式。该论文的主要内容包括:第1章引言介绍了研究的背景和研究意义。第2章预备知识介绍了 Nevanlinna理论和微分、差分领域的相关知识。第3章我们主要研究了 Fermat型微分差分方程ω"(z)~2+[P(z)(d1ω(z+c)+d0ω(z))]~2=Q(z)和 Ferm