基于特征筛选和集成算法的非编码RNA的预测

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:chrron
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
越来越多的研究表明非编码RNA在细胞中发挥着重要的生物学功能,包括控制染色体复制、RNA的加工与修饰、抑制翻译和mRNA的沉默等等。非编码RNA与编码RNA不同,非编码RNA不编码蛋白质,在以前非编码RNA一直被认为是“垃圾DNA”和“暗物质”,但是大量的研究表明众多的非编码RNA有着重要的调控功能。经过大规模对人类转录组进行测序分析表明,大约有70%的人类基因组被转录为非编码RNA,而蛋白质编码转录本(protein-coding transcripts)只占人类全部基因组的1.5%。根据非编码RNA转录本的长度,非编码RNA大致可分为短非编码RNA(如miRNA,piRNA,siRNA,shRNA)和长非编码RNA(lncRNA)。另外,非编码RNA还有一类特殊circRNA分子,circRNA是一类闭合环状结构的非编码RNA分子。非编码RNA分子参与的调控网络可以影响人类发育、进化、遗传变异和多种疾病的等关键生理进程。因此,对非编码RNA深入研究可能揭示一个由RNA介导的遗传信息表达调控网络,从而为人类的生理进程的研究提供新的思路。目前,虽然可以通过生物实验方法准确识别非编码RNA,但是生物实验方法要求实验环境苛刻和样本表达水平极低,因此生物实验的方法不再适用。随着新一代高通量测序技术的发展,人类的RNA基因组已经陆续测序完成,如何有效地利用生物信息学方法从人类的RNA基因组识别出非编码RNA成为RNA组学的研究热点。本文中主要研究了lncRNA,miRNA和circRNA这三种非编码RNA的预测,根据比较和分析机器学习的相关算法,确定了本文的主要研究工作:(1)深入研究目前机器学习中的集成算法在非编码RNA预测上的应用,对多种集成算法的原理和性能优劣进行分析比较。在三种非编码RNA预测中,使用三种集成算法与多种机器学习算法对比,经过预测结果的对比和分析,三种集成算法的预测效果最好,从而选择三种集成算法作为最佳模型。(2)为了进阶提高三种非编码RNA的预测准确率,在先前实验的三种集成算法加入特征筛选,经过加入特征筛选与原始特征的预测准确率对比,特征筛选提高了三种非编码RNA的预测准确率。(3)本文实验提取了三类RNA特征,分别包括开放阅读框(ORF)、碱基组合频率和k-mer。使用随机森林的袋外数据(OOB)来估计每一个特征重要性,确认了ORF和k-mer对lncRNA的预测贡献最大,确认了碱基组合频率和k-mer对pre-miRNA的预测贡献最大,确认了ORF和k-mer对circRNA的预测贡献最大。虽然本文提取特征种类少,但是这三类RNA特征能有效地使三种非编码RNA的预测率保持在较高水平上,三类序列特征对分类器的提升有显著作用。
其他文献
"e-Science"的概念是英国人先提出来的,它是建立在新一代网络技术(Internet)和广域分布式高性能计算环境(Grid)基础上的全新科学研究模式,以互联网技术和网格计算技术为基础,
[目 的]研究N6-甲基嘌呤(m6A)甲基转移酶METTL3在前列腺癌中的表达情况及其临床意义;采用小干扰RNA(siRNA)沉默METTL3基因来观察其对前列腺癌细胞增殖、侵袭和克隆能力的影响
使用碱和碱性磷酸酶降解错位双链寡核苷酸(Poly I:C12U),使其生成三种核苷,再使用反相-高效液相色谱(RP-HPLC)方法,分析核苷的组成,从而计算出Poly I:C12U中的碱基组成比例,
随着互联网技术的不断发展,基于互联网技术的电子商务也在迅速地发展壮大,尤其是B2B电子商务,2017年度其交易规模已高达20.5万亿元,这种商务模式的快速发展也带来了网商融资的强烈需求。这使得基于第三方B2B平台的融资业务快速涌现,但新的业务模式必然会带来新的问题,委托代理下B2B平台的不作为及逆向选择问题使得银行与B2B平台之间的协调变得十分重要,对银行与B2B平台间的激励机制研究具有重要的意义
【摘要】数学是一门来源于实践,又应用于实践的学科,学习数学的目的不仅仅是为了领会或理解数学,更主要是为了使用数学,应用于生活实践;所以,作为聋校数学教师,在教学过程中,除了传授基本知识和基本技能外,更应切实培养学生综合应用数学知识解决实际问题的能力。  【关键词】聋生 数学能力 内容 方法 计算能力 观察能力 逻辑思维  【中图分类号】G76 【文献标识码】A 【文章编号】2095-3089(20
钠离子电池具有资源丰富及价格低廉等优势,被认为是最有可能取代锂离子电池的储能器件之一,而电极材料对电池性能具有极大的影响,因此,对电极材料的研究是开发高性能钠离子电
氮氧化物(NOx)是目前最主要的大气污染物之一,是雾霾、酸雨及光化学烟雾等污染的主要前驱物质,受到社会各方面的密切关注。选择性催化还原法(SCR)已成为当前国内应用最为广泛的烟
简要介绍了国际通行的现代工程项目管理(PM)的三种基本应用模式:PM(Pmject Management项目管理服务)模式、PMC(Project Management Contractor项目管理承包商)模式,以及“全功能工程