深度学习在植物lncRNA识别中的研究与应用

来源 :大连理工大学 | 被引量 : 4次 | 上传用户:violence211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长度大于200nt的非编码RNA被称为长非编码RNA(lncRNA),lncRNA是当下研究的一大热门。虽然不具有编码蛋白的能力,但是lncRNA通过作用于其他分子间接的影响了蛋白的形成。随着测序技术的延伸更多的序列被发现,只有从中精准识别出lncRNA,才能为日后探索其内在结构、预测功能打下基础。对于人类、动物lncRNA识别的研究已经相对成熟,而植物lncRNA结构复杂,样本数量不足,识别较为困难。并且之前的方法大都基于特征工程手动提取特征,不能学习序列的内在特征。因此使用深度学习方法高效准确识别植物lncRNA并预测其功能具有重大意义。本文基于长短期记忆网络(LSTM)和卷积神经网络(CNN)分别构建了两种lncRNA识别模型,lncRNA-LSTM和lncRNA-CNN。对负集进行聚类欠采样操作,达到正负样本均衡。为了使RNA序列能够输入到LSTM中,对序列进行p-nts编码,依次对连续的p个核苷酸进行编码,把每条RNA表示成数字序列。然后对RNA进行one-hot编码,每条RNA都被表示成4*n的矩阵进而可以输入到CNN中。实验的训练集和测试集划分为8:2。lncRNA-LSTM和lncRNA-CNN在测试集上的总体准确率分别达到了96.2%和95.2%。为了展示本文提出方法的优越性,增加基于特征工程的对比实验,提取二级结构、k-mers等特征并选取支持向量机等模型,在玉米数据集上的结果表明提出的两种模型表现得更好。此外,本文提出的方法与目前较为流行的CPC2、CNCI、PLEK、LncADeep等方法在同样的数据集上的结果相比效果更好。根据内源性竞争和RNA结构信息,提取lncRNA-microRNA和mRNA-microRNA互作对,然后结合RNA内在结构规则进行筛选,再通过整合两类互作数据建立RNA相互作用调控网络,并对网络各个模块进行模块分析。通过GO术语富集分析预测和mRNA有相关性的lncRNA参与的调控过程与具有的功能。
其他文献
<正>对稍有年纪的中国人而言,《大闹天宫》也许是最耳熟能详的动画片了。它曾获得过四项国际大奖,代表了中国动画的荣誉。就连日本动漫鼻祖手冢治虫访问中国期间,还专门画了
本文根据作者自己多年的工作经验,分析了科研生产企业信息资源建设与利用特点,指出了科技信息资源建设与利用效果评价存在的问题,通过对存在问题的分析提出了改进和提升信息
再生能源的大量接入对配电网造成许多不利影响,应用全钒液流电池(VRB)储能技术可有效促进可再生能源消纳,减少可再生能源并网造成的不利影响。分析了VRB储能的充放电特性,并
本文运用超DEA模型的分析方法,对成都市城市土地利用效率进行评价。结果表明:城市用地属于DEA有效的城市从高到低依次为青羊区、锦江区、武侯区、金牛区、温江区、成华区、新
产业融合是指不同产业、不同行业之间突破自身的边界,相互渗透、融合发展的过程。产业融合萌芽于20世纪90年代,近年来,信息应用技术日趋走强,相关领域的融合面积不断增大,程
一、“依法治国”的历史必然性 人治与法治是两种对立的治国方略。要把中国建设成为富强、民主、文明的社会主义现代化国家,是走人治之路还是走法治之路?中国共产党选择了法
对多次盗窃行为中“多次”的理解,既是认定其是否构成盗窃罪的关键,也是司法实践对其存有争议的焦点。基于对相关案例的分析,可以得出司法实践在对多次盗窃的行为认定上——
近年来,移动网络被大家所熟知,我国已经全面进入4G网络时代,4G网络给人们日常生活带来的好处却是有目共睹的,在不久的将来,我国还将迎来崭新的5G网络时代。在4G网络建设中,需
随着信息化社会的不断发展,数据处理技术已然渗透到我们工作与生活中的各个方面,用来处理数据的数据库技术更是其中不可或缺的手段。各种计算机技术、数据库技术和网络技术的