基于GoogLeNet模型的带假结的RNA二级结构预测方法

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yaojing45
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA参与着生物体遗传信息的表达、蛋白质的翻译及基因调控等多个生物过程,在生物体内扮演着十分重要的角色。RNA的结构与其功能紧密相关,只有确定RNA的结构才可深入研究RNA的功能。因此,研究RNA的二级结构具有极其重要的意义。传统的RNA结构获取主要有生物实验及计算机预测两种方法。传统的生物实验手段存在成本花费高,时间消耗多等问题。因此,计算机方法成为目前主要的研究手段。现有的预测RNA二级结构的主要方法有:比较序列分析法、动态规划方法及启发式算法等。某种程度上来说,这些方法均取得较好的效果,但也存在着一定的不足。尤其是含假结的RNA结构复杂,使得预测难度加大,往往导致预测效果不理想。假结是一种特殊的RNA结构单元,也影响着RNA的功能。因此,假结的预测一直是RNA二级结构研究中的难点问题。传统的深度学习方法在预测RNA二级结构时,虽然取得较好的效果,但随着网络层数的增加,会出现参数量增多、过拟合等问题。Goog Le Net模型从网络的深度和宽度角度出发,在卷积神经网络模型的基础上进行改进,在提取出更多特征信息的同时,有效提高计算效率。因此,本文使用Goog Le Net模型并借助动态规划方法的思想来预测带假结的RNA二级结构。本文通过实验将现存的真实RNA数据进行处理,利用Goog Le Net网络模型从大量的RNA序列数据和结构数据中提取出有效的特征,然后对提取出的特征进行预测,得出各个碱基的配对概率。针对碱基的预测结果,利用RNA二级结构的定义及动态规划方法的思想,得出每一个碱基配对的概率之和最大的结构,此结构将作为最优的RNA二级结构。本文首先将Goog Le Net模型基于5s RNA、t RNA数据进行评估,并与其他常见的预测算法进行对比,Goog Le Net模型得出的预测精确度,其敏感性和特异性比其他算法中最好的预测结果高约16%。其次该模型基于tm RNA数据进行评估,Goog Le Net模型得出的预测结果比其他算法中最好的预测结果高约9%。由于假结结构较复杂,因此后者得出的预测精度低,但该方法为后续研究RNA的二级结构研究奠定了基础。此外,深度学习算法的性能与数据集大小有关,可推测出随着RNA数据量的增加,深度学习方法对RNA二级结构的预测精度也会有所提高。
其他文献
大豆胞囊线虫病是一种由大豆胞囊线虫(Heterodera glycines,SCN)侵染所造成的植物根部病害,在生产中严重影响全球范围内的大豆生产,造成大豆减产和大豆的品质下降。因此,适当地采取一定的防治措施显得极为重要。目前各大豆主产区中广泛采用的防控措施主要包括:农业防治、物理、化学防治和微生物防治等,对大豆胞囊线虫病的为害起到了一定效果。在该病害的防控措施中,最经济且有效的措施是选育和应用抗
碳-杂键C-X(X=N,F,Si等)广泛存在于药物分子和天然产物之中,因此,高效构建含碳-杂键的分子具有重要意义,尤其是合成具有手性C-X键结构的分子。近年来,随着催化方法学的兴起,通
近年来,由于等离子体流动控制技术在航空航天领域有着广泛的应用前景,各种形式的流动控制方法得到了研究学者们的广泛关注。其中表面介质阻挡放电(Surface Dielectric Barrie
类拟盘多毛孢真菌(Pestalotiopsis-like fungi)是危害蓝莓的重要致病菌之一。随着人们对功能性水果越来越关注,蓝莓产业发展越来越迅速,目前在我国已有27个省份开展了规模化种植,由类拟盘多毛孢病菌引起的蓝莓枝枯及叶斑病发生越来越普遍,严重影响了蓝莓产业的经济效益。本研究在课题组前期工作基础上,将前期研究未被鉴定出来,分离自蓝莓的类拟盘多毛孢菌株作为研究对象,将其重新与新增的模式菌
禽流感病毒是一种A型流感病毒,可感染多种不同物种并导致轻微至严重的疾病。自2003以来,禽流感已在70多个国家暴发。H5和H7亚型的高致病性禽流感病毒可引起家禽严重感染,致死
近几十年,人们在实验上发现了许多类粲偶素态(命名为X,Y,Z态),这为研究多夸克动力学提供了一个良好的平台。对这些类粲偶素态也就是X,Y,Z态它们的内部结构存在着各种各样的解
线粒体功能障碍、能量代谢异常,已成为神经退行性疾病公认的早期病理现象。线粒体蛋白的翻译后修饰(PTMs)可严格调控线粒体蛋白质的结构、定位和相互作用,因此翻译后修饰对疾病的发生和病理影响日益受到人们的重视。本研究发现果蝇线粒体磷酸酶基因CG12091的缺失会导致线粒体形态的变化以及神经退行性的改变。CG12091的过表达会严重影响果蝇复眼的发育,外观上眼睛变小、变粗糙,电镜显示感光神经元的线粒体损
近年来,随着新能源行业的不断发展,通过分析新能源的特性将有利于电网稳定进行和经济调度,于是对新能源的不确定性进行建模变得越来越重要。现有的方法通过随机生成场景基于真实负荷数据对风电出力进行概率建模,进行抽样进而生成场景,但是该方法模型准确性不高、计算复杂度又高。因此提出了一种基于条件变分自动编码器的源-荷概率分布方法,相比较已经有的概率建模方法,本文中的方法可以非监督地学习风电负荷数据特征,并按条
商用车作为一种生产资料,燃油消耗量是评价其整车综合性能的重要指标之一,降低车辆气动阻力对提升整车燃油经济性和核心竞争力意义重大。等离子体流动控制作为一种主动流动控制方法,具有重量轻、可靠性高、成本低、反应快速等优点,被逐渐应用在抑制流动分离及边界层转捩等方面,并取得良好的控制效果。因此研究等离子体对厢式货车的流动控制效果,并提出切实可行的商用车气动减阻方案具有重要意义。本文以CFD仿真的方法,利用
在我国目前的经营性质的加油站的设计使用中,均应当遵守国家于2014年发布的国家标准《加油站渗泄漏污染控制标准》,以及《GB50156汽车加油加气站设计与施工规范》这两个文件中所提出的,加油站应当使用规定的双层储油油罐,或者加装防渗池的单层储油罐等规范储油设施。而目前我国国内在运营状态的加油站中,多数采用的是单层钢制卧式埋地油罐。这些罐体由于常年埋设于地下,所以会不可避免地因为各种原因被腐蚀,发生油