氨基酸的分布式表示方法及其在蛋白质序列分析中应用

来源 :吉林大学 | 被引量 : 0次 | 上传用户:resume_002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是一切生命的物质基础,没有蛋白质就没有生命,更谈不上人类的繁衍生息,氨基酸是蛋白质的基本组成元素,蛋白质是由不同种类的氨基酸按照一定顺序排列而成,称为蛋白质序列。通过对蛋白质序列进行分析可以进一步了解蛋白质的空间结构。这对于分析蛋白质功能和药物设计等应用至关重要,因为蛋白质生物学功能很大程度上依赖于其空间结构,并且蛋白质的生化性质及其功能等都与蛋白质序列密切相关,所以蛋白质序列分析是蛋白质结构甚至是功能分析的前提和基础。蛋白质序列分析的首要步骤是对蛋白质序列进行编码,目前较为常用的编码方式有one-hot编码方式、PSSM谱编码、氨基酸向量编码。one-hot编码方式将氨基酸残基转变为正交向量,不考虑词与词之间的顺序并且假设向量之间相互独立,虽然计算简单,但是不能很好地表达出上下文之间的依赖性和单词之间顺序不同所带来的区别,利用多序列比对打分方式构建的PSSM谱编码克服了这一缺点,但是其算法的迭代性质使其对序列数据库中的偏差非常敏感。特别是,容易将重复序列错误地结合到中间谱中。将氨基酸序列通过Word2vec生成氨基酸向量的编码方式虽然没有重复序列错误,但是并不能表达出同源序列之间的相关性。针对以上编码方式的不同缺点,本文提出了一种嵌入向量的表示方法——基于多序列比对谱的k-mer氨基酸序列生成算法,利用蛋白质相似序列比对谱作为训练嵌入向量的输入,通过训练Word2vec得到每种氨基酸对应的向量,即为氨基酸的分布式向量。并且通过双向递归神经网络LSTM算法应用于蛋白质二级结构和水溶性预测。预测过程中将氨基酸的分布式向量作为输入向量,通过双向LSTM算法分别预测蛋白质的八类二级结构和水溶性。本文分别验证了用单个氨基酸和三个相连氨基酸生成分布式向量的预测效果,实验证明,本文提出的分布式表示方法应用在预测蛋白质二级结构在数据集CB513上达到了68.8%的预测精度,预测水溶性在SOLP数据集上达到了73.3%的预测精度。实验结果表明,在双向LSTM框架下,仅使用本文提出的基于多序列比对的氨基酸分布式向量表示作为模型输入,就达到或优于目前主流的蛋白质二级结构预测方法和蛋白质融水性预测方法。据研究证实,相似蛋白质序列的同源性较高且功能基本相同,相同功能的氨基酸序列的同位置的氨基酸往往相同或具有一定的相互替代性,并且将未知结构功能的蛋白质与相似已知结构功能的蛋白质进行序列对比可以推测其结构与功能,所以本文提出的嵌入向量是合理的。由于蛋白质相似序列之间的关联性较强,递归神经网络可以学习到长期依赖关系并且能够基于数据自适应地进行参数学习,因此本文预测效果较好。
其他文献
目的:探讨应用激光多普勒血流灌注成像仪扫描新西兰大白兔后肢内侧携带穿支血管网动脉化静脉皮瓣(AVF)的血流灌注,为优化设计携带穿支血管网动脉化静脉皮瓣提供实验理论依据
为了探究水稻重金属镉污染综合阻控技术的应用与优化,实现技术在理论及实践进一步的提升与应用,本文主要针对不同污染程度土壤进行了多种阻控技术的单项及组配试验,选取轻、
本试验通过研究张家口杂交谷子(以下简称“张杂谷”)和脱壳张杂谷(以下简称“小米”)以等能等蛋白原则替代部分玉米和麸皮的日粮对0~6周龄海兰褐蛋雏鸡生长性能、营养物质消
阴、阳离子表面活性剂复配能形成自发囊泡,在药物负载与运输等领域有着重要的应用前景;热力学稳定的微乳已被广泛应用于包括提高采收率、纳米粒子合成软模板等领域。若用对外界环境刺激因素具有应激响应的刺激响应型表面活性剂构筑自发囊泡和微乳,就有可能获得对外界环境刺激因素具有应激响应的表面活性剂自发囊泡和微乳;就刺激响应型表面活性剂而言,已有报道的刺激因素主要有温度、pH、光、电、磁、CO_2/N_2和氧化还
蛋白质翻译后修饰促使多肽链与新的功能基团共价结合,极大地扩展了蛋白质组的多样性,可以决定蛋白质的活性状态,亚细胞定位及与其他蛋白质的相互作用。蛋白质翻译后修饰在许
目的:通过比较研究3月、6月、12月雌、雄小鼠内源性代谢标志物的增龄性变化及四首补益剂对不同月龄小鼠代谢标志物的回调作用,揭示四首补益剂与增龄不同阶段相关证候的生物学
目的:人上皮性卵巢癌是严重威胁女性健康的杀手之一,治疗方法比较单一,临床上主要采用手术减瘤联合术及以铂类为基础的化学药物治疗作为一线方案,尽管卵巢癌细胞化疗敏感性较
目的本研究分析了3例PCDH19相关早期婴儿癫痫性脑病患者的临床和遗传学特征,旨在对进一步理解女性癫痫和精神发育迟滞提供更广阔的视角(EFMR;MIM 300088)。方法以3例10个月~2
黑色素瘤是恶性肿瘤中侵袭性、致死性最强的疾病之一,也是发病率增长最快的恶性肿瘤之一。虽然黑色素瘤在我国发病率较低,但近年来增长迅速,年增长率为3~6%[1]。除了手术切除
目的:探讨湖北省缓解期精神分裂症患者服药依从性现状及其影响因素,为采取有针对性干预措施提供科学依据。方法:采用《药物依从性态度评定量表》和《Morisky用药依从性行为问