基于PU学习和深度学习的蛋白质琥珀酰化位点预测方法研究

来源 :云南大学 | 被引量 : 0次 | 上传用户:hunterring1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着后基因组计划的进行,以及高通量生物测序技术的蓬勃发展,推动生物数据呈现出指数级的增长,生物计算已经渗透到了生物学的各个领域,以蛋白质的琥珀酰化为例,判断蛋白质序列中的哪些赖氨酸残基发生琥珀酰化修饰,是蛋白质功能研究中一项非常重要的工作。通过传统的方式来处理这种问题主要通过质谱分析的方法,这种方法会耗费过长的时间周期,以及巨大的人力财力,因此近年来开发了多种基于计算的方法。本文从蛋白质序列出发,结合琥珀酰化位点数据的注释特性,对琥珀酰化位点的预测问题进行了研究,主要内容总结如下:1、根据琥珀酰化位点数据的注释背景,本文构建了一种基于正样本-无标签学习(Positive-Unlabeled Learning,简称PU学习)的方法来识别琥珀酰化位点。在对琥珀酰化位点进行预测的计算方法中,通常将带有注释的琥珀酰化位点视为阳性样本,将余下的没有任何注释的赖氨酸位点视为阴性样本,这种方法会产生假阴性样本,从而降低预测精度,为了解决这种问题,本文使用PU装袋算法建立了一种新的琥珀酰化位点预测方法,该方法的主要步骤为:首先从未标记样本中随机选取数据,并与所有正样本组合来训练分类器;然后预测所有未被采样的未标记样本的概率分数;重复上述步骤,对未标记数据集中的样本进行粗分类。2、针对蛋白质序列是由氨基酸字母按一定顺序排列起来的顺序型数据等特点,本文选用长短期记忆网络和卷积神经网络构建了一个融合异构特征的混合模型来识别琥珀酰化位点。首先结合前人的特征编码评估工作,本文选用了五种较优的特征编码:one-hot、BLOSUM62、ACF、AAindex、CKSAAP编码来表征琥珀酰化样本。其次使用LSTM和CNN构建了四种网络模型:LSTM-CNN、CNNLSTM、LSTM、CNN,并使用选取的五种特征编码分别输入到模型中进行评估。基于各模型的表现,本文选用其中的最优模型构建了一个融合异构特征的混合学习方法用于识别琥珀酰化位点。交叉验证和独立测试集的结果表明,我们提出的混合学习方法具有良好的鲁棒性。
其他文献
在计算机视觉领域,视觉目标跟踪技术在实际生产生活中有着重要的应用价值,吸引了一大批学者在这个领域中持续耕耘。随着深度学习的发展与大量数据的产生,视觉目标跟踪的发展路线逐渐划分为基于传统机器学习算法与基于深度神经网络的目标跟踪。尽管当前有许多优秀的算法被提出来,但是当前视觉目标跟踪仍然面临诸多的挑战,如遮挡、背景混乱、尺度变化等,本文以孪生网络跟踪框架为基础,从特征提取模块和特征融合模块入手对目标跟
学位
如今的全球定位系统、手持设备、带有定位系统的车辆以及很多其他领域每天都产生大量的空间数据,这些空间数据中存在着十分重要的潜在价值。空间数据挖掘的目的就是要呈现潜藏在空间数据中有意义、有价值的信息。空间并置模式挖掘是空间数据挖掘的一个分支,传统的空间并置模式挖掘算法采用最小频繁性阈值来判断一个空间并置模式是否频繁,然而在实践中不容易确定一个合适的最小频繁性阈值,并且这些方法识别空间并置模式的行实例会
学位
科学技术在进步,时代在不断变换,企业之间的竞争也越来越激烈。营运能力是验证其企业健康和是否可持续发展的核心指标,作为企业财务分析的四大指标之一,影响企业的发展前景。分析企业的营运能力,判断企业的营运状况,可以帮助投资者、经营者、债权人以及其他利益相关方了解企业过去、评价企业现状、预测企业未来,提供准确的信息以做出正确决策,还可以帮助企业有效避免经营方面的风险,提高竞争力。
期刊
深度学习在医学图像分析中的可使用性和潜力在过去几年中显著增加,由于医学图像的手动注释对于临床专家而言非常耗时,因此可靠的自动分割算法是处理大量医学图像数据注释的理想方式。医学图像的自动分割算法用于描述医学图像的解剖结构和其他感兴趣区域,并指导放射治疗和改进放射诊断。受深度学习的成功驱动,深度学习的应用潜力使其成为医学图像分割算法的主要选择。目前,在各种医学分割任务上,基于深度学习的自动分割算法取得
学位
视频目标跟踪技术能够根据初始帧给定的目标信息,在后续视频帧中得到该目标的运动参数。其在精确制导、智能导航等诸多领域有着广泛的应用前景。但实际的跟踪过程中存在各种复杂的情况,以至于视频目标跟踪算法要面对较多的挑战。本文主要针对相关滤波跟踪算法在目标遮挡、背景杂乱、快速运动等挑战中出现的响应图的多峰值的问题,基于多峰检测技术对相关滤波跟踪算法展开研究。本文开展的主要工作如下:第一,针对目标遮挡与目标形
学位
影响最大化是社会网分析的一个重要研究方向,在广告营销,舆情控制等领域具有广泛应用,影响最大化方法旨在寻找一组具有较高影响力的初始种子节点,最大化传播和扩散节点的影响范围。目前主要的影响最大化方法主要是针对同质社会网,同质社会网只是现实世界同类对象与对象之间关系的一种简述,并不能真正的表达现实社会中多种对象类型之间的社会关系。异质社会网中多种对象类型,多种对象间关系类型蕴含着丰富的结构和语义信息,有
学位
社交网络的发展为信息的快速传播带来了新的潜力,而确定网络中具有影响力的节点被视为这种潜力能够付诸行动的关键因素,影响力最大化的问题也由此被提出。影响力最大化问题旨在从给定的网络中找到固定大小的种子集,再经过特定的传播模型,使最终的信息扩散范围达到最大。正因为其在商业领域的巨大应用潜力,影响力最大化问题受到了广大研究者们的青睐。目前关于影响力最大化问题的研究大多都集中在同质信息网络,忽视了不同类型节
学位
信息时代的浪潮不断推进,但空间数据的指数级增长与海量数据的处理能力不匹配,由此空间数据挖掘应运而生。空间co-location模式挖掘能发现空间中频繁关联的特征,在空间数据领域得到广泛关注。本文研究的空间co-location主导特征模式挖掘方法,能够发掘不同重要性的空间特征,为空间数据分析及决策提供支持。在空间co-location模式的主导特征挖掘中,特征实例的空间分布状态是衡量模式中特征主导
学位
随着互联网上的数据海量增长,信息过载严重阻碍了人类社会的发展,推荐系统应运而生,它通过过滤、筛选匹配等手段,以解决信息过载的问题。传统的推荐系统核心问题是根据用户的历史反馈对用户和项目之间的交互进行建模,但这种建模的方式是静态的,只能捕获用户的共性偏好。在现实生活中,用户的习惯往往是序列化的行为,而不是独立的交互。此外,用户的偏好和物品的流行程度也会动态变化。不同的上下文通常会导致不同的用户项目交
学位
当今的大数据时代下,在数据挖掘、机器学习、图像、文本等领域中都存在类不平衡问题,类不平衡问题一般指不同类别之间样本数量的分布不平衡。基于机器学习的分类算法处理普通的平衡的数据集时较为有效,但数据集存在类不平衡问题时,会产生类别重叠、样本量小、边界模糊和小分裂群等问题,这将影响后续分类器的学习,导致其性能低下。目前解决类不平衡问题的方法可归纳为三类,数据级方法、算法级方法和集成方法。数据级的方法是针
学位