论文部分内容阅读
越来越多的研究表明非编码RNA在细胞中发挥着重要的生物学功能,包括控制染色体复制、RNA的加工与修饰、抑制翻译和mRNA的沉默等等。非编码RNA与编码RNA不同,非编码RNA不编码蛋白质,在以前非编码RNA一直被认为是“垃圾DNA”和“暗物质”,但是大量的研究表明众多的非编码RNA有着重要的调控功能。经过大规模对人类转录组进行测序分析表明,大约有70%的人类基因组被转录为非编码RNA,而蛋白质编码转录本(protein-coding transcripts)只占人类全部基因组的1.5%。根据非编码RNA转录本的长度,非编码RNA大致可分为短非编码RNA(如miRNA,piRNA,siRNA,shRNA)和长非编码RNA(lncRNA)。另外,非编码RNA还有一类特殊circRNA分子,circRNA是一类闭合环状结构的非编码RNA分子。非编码RNA分子参与的调控网络可以影响人类发育、进化、遗传变异和多种疾病的等关键生理进程。因此,对非编码RNA深入研究可能揭示一个由RNA介导的遗传信息表达调控网络,从而为人类的生理进程的研究提供新的思路。目前,虽然可以通过生物实验方法准确识别非编码RNA,但是生物实验方法要求实验环境苛刻和样本表达水平极低,因此生物实验的方法不再适用。随着新一代高通量测序技术的发展,人类的RNA基因组已经陆续测序完成,如何有效地利用生物信息学方法从人类的RNA基因组识别出非编码RNA成为RNA组学的研究热点。本文中主要研究了lncRNA,miRNA和circRNA这三种非编码RNA的预测,根据比较和分析机器学习的相关算法,确定了本文的主要研究工作:(1)深入研究目前机器学习中的集成算法在非编码RNA预测上的应用,对多种集成算法的原理和性能优劣进行分析比较。在三种非编码RNA预测中,使用三种集成算法与多种机器学习算法对比,经过预测结果的对比和分析,三种集成算法的预测效果最好,从而选择三种集成算法作为最佳模型。(2)为了进阶提高三种非编码RNA的预测准确率,在先前实验的三种集成算法加入特征筛选,经过加入特征筛选与原始特征的预测准确率对比,特征筛选提高了三种非编码RNA的预测准确率。(3)本文实验提取了三类RNA特征,分别包括开放阅读框(ORF)、碱基组合频率和k-mer。使用随机森林的袋外数据(OOB)来估计每一个特征重要性,确认了ORF和k-mer对lncRNA的预测贡献最大,确认了碱基组合频率和k-mer对pre-miRNA的预测贡献最大,确认了ORF和k-mer对circRNA的预测贡献最大。虽然本文提取特征种类少,但是这三类RNA特征能有效地使三种非编码RNA的预测率保持在较高水平上,三类序列特征对分类器的提升有显著作用。