基于结构特征与伪氨基酸组成的蛋白质结构类预测研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:sonicff8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质在生命活动中拥有着不可替代的功能,对蛋白质的研究也越来越重要。其中蛋白质结构类的预测在蛋白质的很多相关属性的预测中起到了重要的作用,如:蛋白质亚细胞定位、膜蛋白类型、G蛋白耦联体类型、酶家族类,蛋白质四级结构类型、与酶的活性等等。因此蛋白质结构类的相关研究在分子生物学中是相当重要的。蛋白质序列数据作为最原始的数据,包含了许多对蛋白质相关研究十分有利的潜在信息,因此对蛋白质序列信息的挖掘和基于序列信息来对蛋白质结构、功能、相互作用以及亚细胞定位等领域的深入研究引起了科研人员的广泛关注本文首先从蛋白质基本性质和性能出发,对目前蛋白质结构类预测现状进行了深入的研究分析。并从预测模型的四个方面对研究方法进行了探讨,首先是数据集的构建;特征提取方面对现有的基于蛋质序列特征提取方法包括基于氨基酸组成,耦联组合,伪氨基酸组成等等进行了分析对比;分类模型方面对目前研究者们常用的分类模型进行了研究;并分析比较了各种评估指标。接着在前面的研究分析基础上,本文提出了一种新的序列特征提取方法,该方法基于Chou-Fasman参数的数据特征,还包括了蛋白质序列的氨基酸组成、氨基酸的疏水特性、极性和部分氨基酸偶联体数据。该方法可以很好的降低这些数据的冗余,避免了部分数据对结果的负面影响。在所提取的特征基础上,运用支持向量机模型,运用留一法,较好的预测了一个由639条蛋白质数据构成的数据集的结构类,证明了该方法的有效性。
其他文献
为了提高物理资源的利用率,虚拟化技术得以普遍运用。通过运用虚拟化技术,单台服务器上可以整合许多虚拟机来为用户提供各种服务。为了保证用户的良好体验,这台服务器对硬件
随着社会网络化和信息化的迅猛发展,在许多领域积累了海量的数据,如何降低这些数据的维度,从中选择出有用的特征,一直是海量数据挖掘的重要研究课题。基于Rough集理论的属性约简
随着移动GIS技术、可定位技术、多媒体技术、无线通信技术和移动终端技术等的迅猛发展,具有可定位信息的视频越来越受到人们的关注。可定位视频是将视频数据与空间数据集成,融
软件行业的不断规范化,不断完善化也随之带动着软件测试行业的不断发展。软件测试工作也由原始的纯手工测试逐步演变为规范化,程序化也是必需化的工作。软件测试工作在软件生
随着软件复用及应用的深入研究,可复用软件构件库作为软件复用的一项重要基础设施已经越来越得到产业界与学术界的重视。构件的查询是构件库的基本功能,利用聚类技术对构件进行
随着工业的快速发展,实时系统成为了工业领域中一个重要的组成部分,在航空航天、军事、汽车、核工业等一些关键领域中,不仅要实现其系统中的功能,而且要保证其在规定的时间内
为了能够在网络带宽较低或中等的区域实现云备份应用,网络上传输的数据量应越低越好,通过对备份数据使用重复数据删除技术,能够显著降低网络传输数据量。重复数据删除的方法
本文以基于高斯模型的运动目标检测与跟踪为主要研究内容,分别给出了基于高斯背景模型的车辆检测改进算法和基于高斯模型和卡尔曼预测的检测与跟踪。本文主要内容包括以下三个
作为一种重要的蛋白激酶,AMP-activated protein kinase (AMPK)在细胞的能量代谢中发挥着中心控制作用,并有望成为治疗代谢性疾病,如糖尿病、肥胖及代谢综合征的有效靶标。因
测试与测试控制标记版本三(Test and Test Control Notation3rd version,TTCN-3)测试系统的编解码器主要负责TTCN-3数据类型与其他类型通信数据之间的数据格式转换。它是一个