论文部分内容阅读
长度大于200nt的非编码RNA被称为长非编码RNA(lncRNA),lncRNA是当下研究的一大热门。虽然不具有编码蛋白的能力,但是lncRNA通过作用于其他分子间接的影响了蛋白的形成。随着测序技术的延伸更多的序列被发现,只有从中精准识别出lncRNA,才能为日后探索其内在结构、预测功能打下基础。对于人类、动物lncRNA识别的研究已经相对成熟,而植物lncRNA结构复杂,样本数量不足,识别较为困难。并且之前的方法大都基于特征工程手动提取特征,不能学习序列的内在特征。因此使用深度学习方法高效准确识别植物lncRNA并预测其功能具有重大意义。本文基于长短期记忆网络(LSTM)和卷积神经网络(CNN)分别构建了两种lncRNA识别模型,lncRNA-LSTM和lncRNA-CNN。对负集进行聚类欠采样操作,达到正负样本均衡。为了使RNA序列能够输入到LSTM中,对序列进行p-nts编码,依次对连续的p个核苷酸进行编码,把每条RNA表示成数字序列。然后对RNA进行one-hot编码,每条RNA都被表示成4*n的矩阵进而可以输入到CNN中。实验的训练集和测试集划分为8:2。lncRNA-LSTM和lncRNA-CNN在测试集上的总体准确率分别达到了96.2%和95.2%。为了展示本文提出方法的优越性,增加基于特征工程的对比实验,提取二级结构、k-mers等特征并选取支持向量机等模型,在玉米数据集上的结果表明提出的两种模型表现得更好。此外,本文提出的方法与目前较为流行的CPC2、CNCI、PLEK、LncADeep等方法在同样的数据集上的结果相比效果更好。根据内源性竞争和RNA结构信息,提取lncRNA-microRNA和mRNA-microRNA互作对,然后结合RNA内在结构规则进行筛选,再通过整合两类互作数据建立RNA相互作用调控网络,并对网络各个模块进行模块分析。通过GO术语富集分析预测和mRNA有相关性的lncRNA参与的调控过程与具有的功能。