基于机器学习的嗜热蛋白预测模型设计与实现

来源 :河南师范大学 | 被引量 : 0次 | 上传用户:x117799589
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命的物质基础,对蛋白质嗜热性能的研究有利于理解蛋白质的热稳定性原理,对研发在极端环境中的生物催化剂、药物研制以及在工业中的应用具有重要的指导意义。运用传统的生物学方法识别嗜热蛋白费时费力,开发快速有效的预测方法势在必行。现有的大部分基于机器学习的方法只是提取单一的蛋白质特征,对嗜热蛋白表达并不全面,且现有方法都仅使用单分类器进行预测,在一定程度上限制了模型的性能。本课题以对嗜热蛋白的预测为研究目标,基于机器学习的方法,围绕对嗜热蛋白的特征提取和预测模型的建立等问题开展研究工作。论文主要研究内容包括以下方面:(1)研究三种基于单特征的嗜热蛋白预测模型。首先,分别运用分组重量编码、ggap二肽组成和改进的三段氨基酸组成方法对蛋白质样本进行特征表达。其次,结合多种机器学习算法,找到每种特征提取方法的最佳参数和最适合的分类算法,在所选数据集上通过Jackknif方法进行验证,构建三种基于单特征的预测模型。经过对比实验结果发现,氨基酸频率更能体现嗜热蛋白的内在信息,且在特征提取方法不同的情况下,使用支持向量机(SVM)的预测结果均优于其他分类算法,证明SVM对嗜热蛋白的预测具有优越性,为下一步研究指明方向且为建模提供基础。(2)构建一种基于多特征融合的嗜热蛋白预测模型。首先,为了更加全面的表征嗜热蛋白,基于多特征融合的思想,运用熵密度、g-gap二肽组成和自相关系数相融合的方法对数据集中的蛋白序列进行特征提取,该方法将嗜热蛋白中的氨基酸信息、物化性质以及各残基的相关性全面的表达。其次,为降低计算复杂度,提高预测精度,使用核主成分分析(KPCA)实现降维处理。最后,将最佳特征向量输入SVM中进行预测,运用Jackknif方法并结合多种评价指标进行验证,构建最终模型。实验结果显示,该方法在所选数据集上预测精度最高为92.81%,ROC曲线下面积达到0.97,并在其他标准数据集上有较好的表现,证明本文构建的基于多特征融合的嗜热蛋白预测模型的有效性。(3)建立一种基于双层级联SVM的嗜热蛋白预测模型。将基于分组重量编码、ggap二肽组成、三段式氨基酸组成和多特征相融合的模型作为双层级联的第一层,将其输出结果串联融合作为第二层的输入,因为SVM对嗜热蛋白的预测具有优越性,在第二层中同样使用SVM进行训练和预测,构建最终的双层级联SVM嗜热蛋白预测模型。实验结果显示,集成模型对嗜热蛋白的总体预测性能进一步得到提升,在Jackknif方法验证下精度最高达到94.51%,且多项性能评价指标均高于其他模型,总体性能好于大多数已报道的方法。该模型在其他标准数据集上同样表现良好,证明所建模型具有较强的鲁棒性且能够显著提高对嗜热蛋白的预测性能。(4)集成阶段性研究成果,设计开发嗜热蛋白预测系统。该系统利用Python和PyQt5开发,结合本项目的研究成果,在实现嗜热蛋白在线预测的同时,还能将本项目的特征提取、数据降维、机器学习算法建模、性能分析等研究过程可视化,并通过一系列性能测试验证系统的稳定性,进而达到为更多的蛋白质预测研究者提供技术服务的目的。
其他文献
在半导体材料,天体物理,理论物理等领域,许多问题都可以归结为非线性退化方程问题。对具有应用背景的退化的非线性偏微分方程是当今研究的焦点和热点。本文主要研究了一类非线性退化椭圆和抛物方程解的存在性与正则性,全文安排如下:第一章主要介绍关于这类非线性退化方程的背景和研究现状,简要介绍本文的主要工作。第二章简要给出本文所涉及的一些基本空间和重要不等式。第三章主要研究下列具有低阶项的非线性退化椭圆方程:此
医疗信息物理融合系统(Medical Cyber-Physical Systems,MCPS)是以保障生命安全为重要前提的网络化、智能化的医疗系统。MCPS中的医疗数据由采集得到的患者的身体参数数据和患者的医疗就诊记录数据组成,是一个典型的大数据系统,传统的MCPS数据库采用集中式的数据存储结构,将全部数据存储于一个中心数据库中,一旦中心数据库遭到入侵,所有数据将面临严重的威胁,而区块链(Bloc
近年来,推荐系统广泛应用于众多商业网站,不仅方便了用户对信息的检索,提升了用户的体验,还为企业创造了巨额的利润。在众多推荐算法中,协同过滤是当前最为主流的算法。尽管协同过滤算法在推荐系统中效果较好,但是仍存在着数据稀疏、算法可扩展性差以及冷启动等问题。因此,本文将研究推荐系统中的协同过滤算法,并针对该算法存在的问题提出一些解决方案。具体工作如下:(1)提出一种基于偏好模型和类别属性的协同过滤算法P
学位
随着计算机和传感器技术的快速发展,机器人的种类也从一开始一些完成简单任务的工业机器人,延伸到农业、医疗、教育、航空航天等领域。机器人技术蓬勃发展的同时,如何实现机器人的精准实时定位和导航也成为机器人研发的热点问题之一。同步定位与地图构建(SLAM)方法在解决机器人定位难、精度差和传感器要求高等问题上有特殊意义。本文在传感器的选择、传感器的融合技术、地图构建和导航算法做出对比分析,提高机器人定位导航
实例分割是计算机视觉领域的一项新兴的综合型任务,这一综合性任务同时涉及了图像分类、物体检测和语义分割三个子任务。实例分割是自动驾驶、三维重建等工作的底层任务,在工业界有很好的应用前景,受到众多学者和工业界人士的关注。近年来,伴随着深度学习的发展,实例分割从无到有,逐渐发展分化为两步式方法与一步式方法。当前实例分割普遍存在分割掩膜不精细、定位检测框无法包含完整物体等问题。本文针对上述的两个关键问题,
滑动轴承因为其良好的抗震耐磨性、易拆装性、承载力大、工作转速高等优点,所以被广泛应用在汽车、核能、航空航天、工程机械等各个重要领域。而确保滑动轴承稳定,平稳的工作则是设计的关键。所以轴承的工作特性研究一直是它正常运转的焦点问题。目前有许多文献研究了制造加工误差对滑动轴承系统工作特性的影响,但是有关粗糙度误差对于滑动轴承系统工作特性的研究还有待深入。本文主要针对滑动轴承轴颈存在粗糙度误差对轴承系统运
随着医疗信息化的不断发展,蕴含着丰富医学知识的各类医学文本的数量激增,对高效地利用文本中有价值的信息造成困难。知识图谱因能够对海量结构化文本知识进行表示,实现知识的快速查询而被广泛使用。同时医学知识图谱作为驱动智慧医疗服务与应用的关键基石,有助于临床辅助决策、智能导诊等应用的发展。医学文本中大部分是结构并不明确的为半结构化和非结构化文本,无法直接存入医学知识图谱。关系抽取因能够实现医学文本的语义结
近年来,物联网的普及与增强现实、智慧城市等计算密集型新兴移动应用的发展,使得大量数据来自终端设备。如果将这些数据直接发送到云数据中心,会给当前的主干网络带来沉重的流量负担。此外,终端与数据中心之间的距离会造成较长的传输延迟,导致用户体验质量较差。移动边缘计算通过在网络边缘部署计算和存储资源,可以满足用户的低时延需求,同时也减轻了核心网络带宽的压力。目前,移动边缘计算在内容缓存方面取得了很多进展,但
圆截面梁在现代机械、土木、桥梁、航空等领域具有广泛的应用,在服役的过程中,若不能及时检测到裂纹或忽视裂纹的影响,圆截面梁在交变载荷、振动载荷、疲劳等因素的作用下可能发生疲劳断裂问题。本文以圆截面悬臂梁为研究对象,以模态特性为损伤指针,结合等高线法提出了两种基于模态特性的圆截面梁损伤识别方法。论文的主要贡献如下:首先,基于Euler-Bernoulli弹性梁理论和线弹性断裂力学,推导了圆截面梁在受到