基于机器学习的蛋白质结构类预测与质量评估

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:nini126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是构成单个细胞的基本有机物,是生命活动的执行者,其角色决定于它的功能,而蛋白质功能主要由他们的结构决定,因此研究蛋白质的结构对于认识其功能具有很大的意义。但由于在生物体内蛋白质的组成复杂多样,直接使用分子动力学技术模拟蛋白质折叠过程,不仅需要大量的计算资源,还需要对蛋白质折叠过程有深刻的认识,很难快速准确的实现结构预测和模型质量评估。随着计算机信息技术的发展,研究基于机器学习(Machine Learning,ML)的蛋白质结构类预测和质量评估是目前生物信息领域的一个研究热点。本论文的主要研究内容包括以下三个方面:(1)构筑基于属性约减的蛋白质结构类多分类模型。在蛋白质结构类分类预测中,首先对于已知氨基酸序列的蛋白质,选择不易丢失序列信息的伪氨基酸特征,然后针对蛋白质序列特征表达存在信息冗余,考虑到结构类分类是个多分类问题,提出利用Relief F算法对蛋白质结构特征进行约减,接着采用多个二分类的SVM模型来构造SVM多分类器模型,最后对蛋白质结构类进行分类,尽管实验结果和未进行特征约简的方法相比,耗费的时间减少近一半,但存在模型参数不好确定的问题。(2)设计SAPSO算法,优化蛋白质结构类分类模型参数。针对上述蛋白质结构类多分类模型参数不好确定的问题,综合模拟退火(Simulated Annealing,SA)算法跳出局部最优解和粒子群(Particle Swarm optimization,PSO)算法收敛速度快的特点,设计出一种适合蛋白质分类模型的模拟退火粒子群(SAPSO)算法以获取优化的模型参数,然后通过具体的蛋白质分类实验,证明设计方法的有效性。(3)针对传统蛋白质模型质量评估没有考虑同源信息问题的缺陷,建立了一种基于ML的蛋白质模型质量评估模型。将蛋白质序列输入到SWISS-MODEL中,自动构造出它的三维结构。将蛋白质序列和Model1序列输入到BLAST系统中,提取序列比对的四个主要特征。在考虑同源信息的情况下,将提取的特征值作为LS-SVM的输入数据用来训练LS-SVM,并同时利用SAPSO算法对LS-SVM的参数寻优。由最优参数值构造的LS-SVM模型来得到蛋白质GDT-TS。然后通过测试实验表明该设计模型在绝对误差和均方误差方面均有明显优势,进而证明所建模型的合理性和有效性。
其他文献
数据库系统是用来组织、存储和管理数据的仓库,它在企业、部门乃至个人的日常生产生活等诸多领域都得到了广泛的应用。随着现代互联网的迅速发展,信息呈现爆炸式增长,数据库
在数字图像的获取过程中,不可避免的要受到诸多因素的影响,导致图像质量达不到应用要求。由于受到硬件工艺的限制,如何采用软件的方法提高图像的分辨率受到很多研究者的注意。以
随着大规模互联网应用的高速发展,给存储系统的可扩展性提出了更高的要求,键值数据库由于其简单高效的数据模型在可扩展性方面较传统的数据库系统有很大的优势。另一方面,随
近年来,在计算机科学领域中,与本体相关的研究越来越多。科学家和学者已经构建了各种各样的本体,但尚未构建社会群体角色本体。本课题的研究内容就是如何构建社会群体角色本体。
大规模稀疏矩阵的求解是高性能计算中的一个常见问题,广泛存在于工程实践尤其是计算机仿真领域。用常规方法解稀疏矩阵时,会浪费大量的计算资源。目前,在国内外,在通用计算领域对
随着智能电网的发展,越来越多的新能源接入其中,如太阳能、风能等,形成分布式电网模式。然而,这些新能源的发电量易受光照、风速等自然条件的影响,尤其随着新能源接入量的增加,其本身的波动性对智能电网的稳定性带来很大影响。在电网稳定性状态评估和电网实时动态无功电压优化控制等方面,超短期负荷预测具有重要的参考意义。超短期负荷预测具有预测时间短、实时性要求高等特点,目前正处于研究阶段。智能电网中大量的时序数据
作为机械设备中最常见的零件之一,滚动轴承的工作状态直接决定了整台设备能否正常工作,甚至关系到整条生产线能否正常运行。滚动轴承诊断技术,可以及时的发现故障,避免造成重大事故,因此,进行轴承诊断的研究具有至关重要的现实意义。传统的信号处理方法常常忽略轴承信号中的重要信息,因此,利用传统故障诊断技术进行分析存在一定缺陷,出现误诊和漏诊现象比较频繁。而且随着科学技术的发展,对故障诊断的要求也越来越高,机器
随着电子信息技术及视频处理技术的发展,视频监控系统经历了纯模拟系统、部分数字化系统,完全数字化系统三个发展阶段。目前的视频的监控系统在完全数字化系统的基础上,借助
进入信息时代,人们可以利用信息技术实现信息的海量存储、高速传输以及快速处理,但信息的获取仍未达到理想的自动化水平。随着网络、传感器、无线通信、微机电等技术的发展进
实时姿态估计技术被广泛应用于体感交互、安全控制、医疗诊断等领域。深度图能直接反映拍摄场景的准确空间信息,大大降低了姿态估计的难度。但由于现有技术的封闭性,无法实现跨