面向氨基酸序列的表示学习和生境稳定性分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:zhiyouyiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是指氨基酸序列,是构成细胞的基本有机物。氨基酸序列的生境稳定性是指在特定的生态环境下,保持其生物活力的能力。分析氨基酸序列的生境稳定性能够辅助合成满足特定环境需求的蛋白质,具有重要科学意义。氨基酸序列的生境稳定性与其结构密切相关,虽然基于蛋白质空间结构进行生境稳定性分析,相较传统的生物学方法降低人力和时间成本,但是获取氨基酸结构信息需要通过X射线晶体衍射分析和核磁共振等生物学实验,周期长且成本高,因此直接使用序列信息进行生境稳定性分析成为重要研究方向。现有氨基酸序列分析方法主要分为两类:依赖专家知识的特征工程方法可以将已知的生物学特征融入建模过程,但是难以表示氨基酸之间复杂隐式关联;氨基酸片段隐向量方法虽然能解决这类不足,但是现有方法采用等长分割氨基酸序列的方式,可能破坏实际存在的稳定氨基酸片段,且没有考虑距离较远的氨基酸关联关系,如alpha螺旋、beta折叠等,影响后续生境稳定性分析。针对上述挑战,本文研究基于氨基酸序列的隐向量学习和生境稳定性预测问题,主要工作如下:一、针对氨基酸序列片段的多样性问题,提出了基于统计的氨基酸序列分割算法。稳定的氨基酸片段的实际长短和组合方式有很多差异,同时具有规律,这种规律蕴含在众多蛋白质实体中,现实数据集包含的氨基酸序列片段的统计结果客观反映了这种规律。本文针对国际学术界普遍采用的NCBI数据集,建立了基于统计的氨基酸序列片段字典,依据最大后验概率的方法进行氨基酸序列分割,使得分割结果能够反映这种存在规律。二、针对氨基酸片段的复杂关联问题,提出了隐空间向量方法。氨基酸片段空间结构的多样性反映了既有显式的直接化学关系,也有隐式的长距离生物特性,本文采用隐向量方法建模这种复杂关联关系。依据氨基酸序列中保守结构域的空间临近性特点,建模向量语义距离,进行表示学习。三、针对生境稳定性预测问题,提出了融合注意力机制的神经网络模型。通过循环神经网络建模氨基酸片段之间的长距离依赖关系,通过卷积神经网络学习不同维度的相关性;针对实际需求的高温高压环境目标,采用联合学习方式共享底层语义信息,分析氨基酸序列的温度和压强生境稳定性。在NCBI数据集上,从四个方面测试模型性能。一是,对比了不同参数设置对模型性能的影响。二是,采用微调机制对模型性能的影响,三是,对比了不同的相关工作,四是,模型各部分组件对模型性能的影响。
其他文献
互联网的快速发展为人们交流沟通提供了很多便利,用户可以方便地上传和浏览网络中的图像。在线社交网络中的图像通常携带了很多社交网络信息,这些社交网络信息在一定程度上反
冲击地压是煤矿开采中典型的动力灾害之一。本文基于层间摩擦滑动开展冲击地压实验研究,设计并进行煤(岩)柱、工作面、巷道三种典型结构实验,对冲击地压发生过程近似还原。以
目前,工业生产中钢铁的除锈通常采用无机酸酸洗的方式进行,在该过程中无机酸的强反应性易于在钢铁表面除锈的同时引起酸与钢铁基体中的铁的反应,从而产生过度酸洗等问题。酸
氢能被誉为未来最具发展前景的理想能源载体,其具有能量密度高、环境友好等优点,但氢气的安全存储和运输仍然是氢能大规模应用的瓶颈。因此,迫切需要寻找一种安全稳定的化学储氢材料,以在温和的条件下便捷地储存及释放氢气。水合肼(N_2H_4·H_2O),由于具有含氢量高(8.0 wt%)、毒性低、性质稳定且易于运输等特点,被视为是一种理想的液相化学储氢材料。在合适的催化剂作用下,N_2H_4·H_2O完全分
竹纤维/环氧复合材料具有轻质高强,耐疲劳性好和缓冲性能好等优点,且其具有低成本、低能耗,绿色环保等优良特性。但在树脂传递模塑成型工艺(Resin Transfer Molding,RTM)领域
纸制品参数是造纸行业产品质量评价与控制的依据。然而,行业现有的检测方法并没有与不断更新的科学发展并驾齐驱。由于大多数纸制品参数评价问题都涉及到复杂的多变量,传统的
本文是以1888-1911年的《张棡日记》为核心资料,以张棡的活动为切入点,探讨晚清士绅个人日常生活中所涉及的社会规范和秩序,进而对地域社会结构问题做出思考。关于地域社会的结构和秩序问题,学术界多从水利、宗族、市场、信仰等共同体的角度入手进行研究:施坚雅提出中国集市体系理论与宏观区域理论;历史人类学者对宗族、民间信仰进行深入研究;法国学者蓝克利等对山陕地区水利进行调查,提出“水利社会”的概念等等。
当前,随着脑电波信号采集设备的不断发展,脑机接口研究变得更加具有实用性,一些基于脑机接口的受人脑控制的轮椅等设备已经投入市场。然而,脑电信号的收集过程中不可避免地会掺杂有杂音信号,这些信号来自于机械设备固有杂音或者是周围环境的干扰信号。盲源分离算法可以实现在不清楚原始信号的前提下,从混杂信号中提取原始信号的功能。虽然这些算法的分离效果均被证实非常理想,但是其算法运行速度难以满足今天脑机接口系统中对
锂-空气电池相比锂离子电池以及其他金属-空气电池而言,具有更高的能量密度,从而引发了研究者们广泛的关注。而锂-空气电池的性能与实际放电产物的结构、组成和物理化学特性
材料的自修复功能能够有效延长其使用寿命,提高资源利用率,一直是材料科学领域的研究热点。然而传统的外援型自修复材料需要额外植入修复剂,成本较高,制备工艺复杂且修复次数