基于数据增强的RNA-蛋白质相互作用预测研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:tanmite123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA结合蛋白(RBP,RNA Binding Protein)是普遍存在的能与RNA结合的蛋白质的总称,RBP通过与RNA特异性结合,直接或间接地调控RNA的表达。在生物体内大部分的RNA发挥作用都要与蛋白质相结合,RBP与特异RNA结合的过程又称为RNA-蛋白质相互作用。RNA-蛋白质相互作用的预测是目前生物医学工程领域的重要研究课题,如何利用计算方法提高其预测精度成为当今国内外研究的热点。现阶段研究中,由于人们对RNA与蛋白质的相互作用机制以及结合特性尚未完全了解,传统的机器学习方法提取特征困难,目前暂未出现一种公认的特征提取方法。越来越多的目光转向深度学习方法。然而,深度学习预测方法仍存在以下不足:1.大多数深度学习方法仅考虑序列信息,忽略了二级结构信息。2.部分RBP存在数据规模小的问题,而深度学习模型需要海量数据,导致这些RBP的模型预测能力始终低于平均值。3.大多数预测模型训练时参数随机初始化,模型预测精度提升不明显。4.多数方法仅考虑结合位点是否存在,忽略了结合发生时的序列特异性。针对上述问题,本文的工作内容及研究成果包括:1.构建了RNA序列和结构信息的特征矩阵。RNA结构的修饰及其空间结构的改变都可能导致与其结合的RBP发生变化,因此,本文在RNA序列信息基础上,增加RNA二级结构信息,采用one-hot编码。编码后,序列和结构信息被分别表示为网络可直接读取的数值张量。2.构建了一种生成对抗网络(GAN,Generative Adversarial Networks)增强样本集。本文在24种RBP中,选取8种预测精度低于平均值的RBP,构建生成对抗网络,增强对应的RBP数据规模。通过判别器和生成器交替训练,优化生成器合成质量更高的合成数据。通过生成与真实数据具有相似特征的合成RNA数据,增强训练集规模。在数据增强前后,分析并比较8种RBP的平均AUC值,结果显示数据增强后平均AUC值实现提升。同时,也验证了通过数据增强能够提高预测模型的学习能力和预测能力。3.搭建了一种基于序列和结构特征的卷积自编码器(CAE,Convolutional Auto Encoder)预测模型。在预训练阶段,卷积自编码器在编码器与解码器模型上,以无监督的方式分别训练序列和结构数据。在微调阶段,将已训练好的序列与结构编码器的输出并连,在输出之后添加两层长短期记忆网络层(LSTM,Long Short-Term Memory),目的是捕获序列motif和结构motif的长期依赖信息,motif是RNA中能与RBP发生结合的具有共性的短序列片段,可以视为RNA的特征。经过公共数据集RBP-24的验证,相较于现有模型,本文预测模型平均AUC值实现了一定的提高。4.提取了发生结合的序列motif与结构motif。在训练完成后,提取序列和结构编码器模型中卷积层的卷积核来分别获取序列和结构motif。卷积核中的参数记录了碱基位置权重,通过与源数据作卷积运算,提取高于设定阈值的短序列,分析所有短序列并得到具有共性的motif。实验结果表明,本文模型所提取的motif与经实验验证的motif具有一定的吻合性,从侧面验证了本文模型拥有较高的预测能力。除此之外,本文还可以提取公共数据集中的未知motif,对结合特性的进一步探索提供研究基础。基于上述研究,本文设计了相关实验,并在公共数据集上对所提方法进行验证。对比现有研究,论文所提方法可实现预测精度的提升(平均AUC值达到0.939)。为了进一步验证方案的有效性,本文设计并实现了“基于数据增强的RNA-蛋白质相互作用预测”的原型系统。本文通过增强训练集规模,提升卷积自编码器的预测能力。该系统利用已训练好的预测模型,接收未知结合位点的任意RNA序列作为输入,预测对应的二级结构,并对序列和二级结构分别编码,通过调用预测模型分别计算该RNA序列与公共数据集中24组RBP的结合概率,返回对应的结合概率值。该系统可为相关领域的研究人员提供分析平台,辅助获取对应RBP的结合偏好,为探究RNA和蛋白质的结合机制提供启发意义。
其他文献
甲状腺结节是一种常见的临床问题,对其进行临床检查能够判断患者是否患上甲状腺癌,超声是首选的检查方式,但为了进行更准确的诊断,还需要对患者作病理检查,由此生成的病理报告是公认的金标准。由于病理报告直接反应患者情况,知晓患者的病理报告诊断结论,便可推导出其超声图像检测结果为良性还是恶性。而这对于甲状腺超声图像的标注也具有重要意义:基于超声图像的甲状腺结节计算机辅助诊断系统以深度神经网络作为主要的甲状腺
随着智慧城市的升级,智慧城管系统朝着智能化和多任务的方向发展,其中违规广告牌检测是智慧城管系统的一项重要研究任务。近年来,随着深度学习和计算机视觉的快速发展,越来越多的基于卷积神经网络的目标检测算法被用于非法广告牌检测,具有较高的检测精度,但是在实际应用中可能有一些问题:一方面,对目标检测要求实时性;另一方面,复杂的卷积神经网络的训练需要高性能机器支持,这些高性能的机器不是每个单位都能提供。为了更
随着互联网的蓬勃发展,越来越多网民在社交平台上发表自己的言论,这些言论中通常包含大量的情绪信息,分析这些文本中蕴含的情绪可以为舆情分析等许多任务提供支持,拥有很高的应用价值。由于社交平台上用户发布的每一段文本通常包含多种情绪,且这些情绪间互相存在关联,捕捉这样的关联可以为准确识别文本中的情绪带来帮助,所以文本情绪分析应使用能够建模情绪关联性的多标签分类方法。目前以序列到序列模型为基础的深度学习方法
使计算机具有文本生成能力,是实现人工智能的重要目标之一,也是当前自然语言处理领域的研究热点。近年来,深度学习成为文本生成的主流方法,使得生成文本更加流畅,极大地提高了生成文本的质量。然而,主流的深度学习文本生成方法以序列到序列模型为基础,它们针对相同的源文本总是产生相同的目标文本,这对于要求提供多样性回复的应用场景是不适合的,例如聊天机器人。因此,在满足高质量的前提下提高生成文本的多样性,成为文本
在软件开发流程的前端开发环节中,前端开发人员需要根据UI(User Interface,用户界面)设计图编写对应的界面代码。为了1:1还原UI设计图中UI组件的位置与样式,开发者通常采用一种不断试错的方式进行界面代码编写,这是一项耗时且重复的工作。实现从UI设计图到界面代码的自动转化,可以避免这种重复的试错过程,提高开发效率,有利于软件的快速迭代。近年来,有不少工作利用深度学习技术,致力于将UI设
随着深度学习的发展,中国古典诗歌的自动生成研究取得了很大的进展。近年来,研究人员在关注如何提高自动生成诗歌质量的同时,提出了根据图像信息生成诗歌这一跨模态任务。目前,针对该任务的研究方法仍然存在诗句主题偏移和语义不一致的问题;同时一些重要的图像信息不能准确的被表达在生成的诗歌中;而且在训练过程中,图像和诗歌的配对数据集存在质量差和难以构建的问题。本文针对这些问题,提出了一种基于深度学习的图像生成诗
鞍区的周围毗邻着Willis环、视神经等重要的神经血管结构,是病变的好发部位。颅咽管瘤(Craniopharyngioma,CR)、鞍结节脑膜瘤(Tuberculum Sellar Meningioma,TSM)、Rathke’s囊肿(Rathke’s Cleft Cysts,RCCs)和垂体瘤(Pituitary Adenomas,PAs)是鞍区最为常见的病变。磁共振成像(Magnetic Re
值函数估计在深度强化学习算法中应用广泛,并且在状态和动作空间较复杂的环境中可以解决传统强化学习中遭遇的维度灾难问题。因此,值函数估计的研究在深度强化学习领域具有十分重要的意义。但在深度强化学习算法值函数估计的过程中存在一些问题:(1)在更新值函数的过程中,算法普遍选择当前状态下最大的动作状态值(Q值)估计来计算目标Q值,导致算法过高估计Q值,对性能造成不利影响。(2)基于值函数的深度强化学习算法在
自然语言处理中的信息抽取任务是指抽取自然语言文本中的实体、实体关系和事件等结构化信息,是一种将非结构化或者半结构化的文本数据,转化为结构化信息的技术。随着互联网的飞速发展,网络上存在越来越多的以文本形式存在的数据,如何快速将大量无结构的文本数据转化为有结构的信息,为下游应用提供数据支撑,是信息抽取需要解决的问题。信息抽取的具体任务包括命名实体识别、实体关系抽取和事件抽取。其中,命名实体识别与实体关
交通标志检测在辅助驾驶以及无人驾驶领域中都有重要地位。在这一领域,技术方法百花齐放,都是对获得的标志图像进行检测。其中使用深度学习检测算法进行交通标志检测已经成为当下交通标志检测的重点研究领域。在道路交通中,由于复杂的道路交通情况以及驾驶员可能出现的身体不适或者精神不集中等情况,单靠驾驶员用肉眼识别交通标志常常会出现各种各样的问题,所以通过其他方式进行交通标志检测的需要逐渐增大,同时在智能交通和自