蛋白质二级结构类预测中的信息提取与预测方法研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:czhaoguof
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
测序技术的进步使得蛋白质序列数据与日俱增,然而人们对蛋白质高级结构和功能的认识还不够,远远落后于对蛋白质序列的认识。同时,传统的生物实验方法已难以满足海量数据的处理需求,因此发展理论与计算的方法来研究蛋白质结构和功能具有深远的意义,这也成为计算分子生物学中最基本、最重要的课题之一。对于一条蛋白质而言,利用海量的序列信息预测出其空间三级结构是结构预测方法的最终目的。然而在很多情况下,这个目标很难实现。由于蛋白质空间结构是由一些二级结构元件组成的,人们希望先预测出蛋白质二级结构类型,了解蛋白质内部的局部结构信息,再进一步预测其三级结构。因此,蛋白质二级结构类型预测工作是蛋白质三级结构预测的基础,具有着重要研究意义。同时,它作为蛋白质组学研究的一个分支,受到越来越多研究者们的关注。目前,蛋白质二级结构类预测的研究主要集中在三个方面:提取蛋白质序列的特征信息,挑选多重信息中有代表性的特征以及发展合适的预测算法。近年来,国内外文献报道了很多有效的方法,但从序列信息获取角度来看,现有方法所获取的信息较单一,各个层面的信息没有得到很好的融合。因此如何系统地融合不同的信息来预测蛋白质结构类是一个迫切需要解决的问题。此外对于融合后的信息,可能存在冗余信息,还应考虑如何挑选有效的特征信息,剔除冗余的信息。针对以上问题,本研究基于信息处理方法,提取氨基酸出现频率信息、位置分布信息及二级结构的序列信息,并对多源信息进行有效地融合、挑选,通过设计合理的预测方案,提高了蛋白质信息获取与结构类预测的效率。具体方法上:1)基于字统计模型及氨基酸的物化性质,获取蛋白质一级序列、缩氨基酸序列及二级结构序列片段的位置信息,进而研究其位置分布函数,计算其数值特征。将各片段的位置特征与频率特征相融合,构建出高效的蛋白质结构类预测模型,为有效提高分类率奠定基础;2)在特征信息选择上,采用基于相对重要性的随机森林对多重特征信息进行挑选,尽可能减少信息的冗余。随机森林是一种通过建立多棵决策树来对数据进行分类判别的方法,其主要采用自助法重采样技术,按照特征的相对贡献这一指标来挑选关键特征。3)通过采用支持向量机、k-近邻算法、BP神经网络算法以及多分类器组合来进一步改善分类效果,并验证该研究所提算法的有效性。实验结果表明:1)与传统经典方法相比,利用本研究提出的特征信息提取方法可涵盖序列统计特征、氨基酸物理化学特征、氨基酸片段位置分布三方面的信息,此方法可以较为全面地反映出蛋白质序列中有代表性的特征信息。2)通过采用有效的特征挑选算法以及分类算法,既有效减少了信息的冗余,又提高了结构类预测模型的准确率。综上,本研究从信息学角度出发,系统地解决蛋白质信息提取、多特征信息组合及结构类预测等信息处理问题,有助于蛋白质的结构及功能研究,同时也对蛋白质序列分析、机器学习领域的发展有很大的帮助。
其他文献
<正>照明是为人类提供光明的事业。从上世纪初电灯进入中国后,中华民族的照明电器工业经历了100多年的发展。一代又一代行业工作者,以执着的信念和不灭的热情,为光明的事业孜
针叶树是芬兰、瑞典、挪威、美国、加拿大等欧美国家主要的商品林树种。容器苗是针叶树重要的育苗类型。与裸根苗比较,容器苗具有育苗周期更短、造林季节可延长、苗木适应性
蛋白质三级结构预测是由氨基酸序列预测蛋白质三级结构的过程。蛋白质结构预测的基本假设是蛋白质三级结构由其氨基酸序列唯一决定。研究蛋白质的结构意义重大,不但有助于了
PhoP/PhoQ是鼠伤寒沙门菌中重要的一组双组份调控系统,直接调控了鼠伤寒沙门菌5%左右基因的表达,同时其保守性存在也暗示了其在细菌生命活动中的重要性。质谱结果显示,PhoP第
目的研究相关蛋白在子宫平滑肌瘤与子宫平滑肌肉瘤患者组织中的表达,并探讨其在肿瘤发生、治疗与预后监测中的潜在价值。方法收集绍兴市人民医院2006年11月—2016年1月进行手
电子档案数据的法律证据价值在实际工作中常常受到质疑,这对于档案机构的职能发挥带来极大影响。采用Hash函数析出数字摘要文件并保全,能够对电子档案的法律证据价值起到很好
<正> 一、博物馆教育在博物馆中的地位所谓博物馆教育是指博物馆运用文物标本向大众实施的教育工作。博物馆教育是社会教育的一种方式。学校教育、家庭教育、社会教育是并驾
本文研究求解大规模反对称矩阵特征问题的广义Lanczos方法.本学位论文共分四章.第一章介绍大规模反对称矩阵特征问题的来源,解决这类问题的基本方法以及与论文有关的研究方向
在现代足球对运动员要求越来越高的同时,对裁判要求也相应提高,现代足球竞赛规则也赋予了裁判员更大的权利,而在现实比赛中,可能会出现很多影响裁判员判罚的因素,例如裁判员
清代画家方薰在《山静居画论》中说:“款题画始自苏(轼)、米(芾),至元明而遂多。以题语位置画境者,画亦由题益妙。高情逸思,画之不足,题以发之,后世乃为泛觞。”方薰所说的“