基于高通量测序的RNA可变剪接与二级结构的分析算法

来源 :清华大学 | 被引量 : 0次 | 上传用户:vs1ji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
转录组学是分子生物学中最重要的研究领域之一。近十年来,随着高通量测序技术的问世,转录组学的研究得到了空前的发展,相关的研究成果也在不断地刷新人类对生命现象的认知。由于高通量测序数据具有读段短、数量大的特征,与其相关的数据分析离不开计算机的支持。有力的数学模型和高效的算法设计成为近十年来转录组学研究中的关键。本文基于高通量转录组学数据,分别对转录组中互补的两类RNA——编码RNA和非编码RNA中的重要生物现象,即编码RNA的可变剪接和非编码RNA的二级结构,进行了相关的算法开发和计算分析的工作。编码RNA的可变剪接在真核生物的细胞过程中发挥着重要作用,其中外显子包含率是衡量RNA可变剪接强度的重要指标。本文提出了基于RNA-Seq数据估计外显子包含率的新算法:Free PSI,其是第一个实现在既不需要参考转录组注释,也不需要进行读段比对的情况下对外显子包含率进行估计的算法。Free PSI算法设计了一个新的概率生成模型来估计全基因组的外显子包含率,其可以通过期望最大算法和分治策略进行高效求解。通过在模拟数据和真实数据上对Free PSI的准确率和运行效率进行评估后发现,其在没有参考转录组的情况下仍可达到非常好的效果。综上,Free PSI会在缺少参考转录组情况下的可变剪接分析中有重要应用。本文也通过可变剪接分析,成功发现了SF3B1基因突变型泌乳素瘤中ESRRG基因的异常剪接导致病情恶化的病理机制。非编码RNA的功能很大程度上由其二级结构决定,但体内RNA的真实结构对于人类来说依然非常神秘。近年来,基于高通量测序的PARIS实验技术实现了对体内RNA双链结构的直接探测,但由于其测序结果的特殊性,导致现有的算法无法直接利用这种数据进行结构预测。因此,本文开发了基于PARIS数据预测体内RNA二级结构集合的IRIS算法。IRIS算法在贝叶斯模型的框架下,依据热力学原理和PARIS数据预测了体内RNA二级结构的集合,其预测结果也得到了进化保守性的证据支持并通过了其他体内RNA结构测序数据的一致性检测。作为首个利用PARIS数据预测体内完整RNA二级结构的方法,IRIS增强了PARIS数据的可用性,同时也推动了体内RNA二级结构研究的发展。基于PARIS数据,本文还面向长链RNA提出了二级结构域的概念,并开发了二级结构域的划分算法,为长链RNA二级结构的研究提供了新思路。
其他文献
地震模拟对于完善地震学理论和抗震救灾等都具有重要作用,但大规模地震模拟在计算和存储方面都面临严峻挑战。基于“神威·太湖之光”超级计算机,已有工作采用有限差分方法实现了唐山地震的高效高精度模拟。然而,我国大多数地震发生于川滇地区等地形复杂的区域,无法使用传统的有限差分方法准确模拟地形效应的影响。在前述唐山地震模拟工作的基础上,本文引入曲线网格以精确描述复杂地形,并针对新算法更复杂的计算和数据特性,提
尺寸效应始终是纳米材料研究中的核心问题,当其尺寸减小到十纳米以下,甚至达到亚纳米级别的时候,纳米材料的性质往往会发生质的飞跃,而在纳米材料研究中,其尺寸减小所带来的性质上的质变是我们追求的核心。一维亚纳米材料的尺寸效应主要依赖于其径向尺寸的减小,径向尺寸减小到一定程度可能会使其结构,构象甚至性质发生巨大的转变。一维亚纳米材料尺寸接近线性大分子,能够表现出丰富的构象。能够像有机大分子体系一样,在溶剂
星系的光谱由几个重要部分组成:连续谱、吸收线、发射线。所有这些组成成分都会被分布在星系内部的尘埃所影响。尘埃对星系光谱紫外、光学、红外波段都有着影响,并且波长越短影响也越大。尘埃能够吸收短波长光子(紫外、光学),并在远红外波段发出辐射。因为尘埃消光会使得星系光谱的整体形状和幅度都发生改变,所以在通过星系光谱测量星系各成分性质的时候,必须要考虑尘埃消光的影响。如何更好的测量星系内禀尘埃消光一直是星系
记忆的巩固理论表明,通过神经环路中基于基因调控的突触结构的持续修饰,新获得的不稳定的记忆,逐渐得到巩固和稳定。因此,经过巩固过程产生的长期记忆被维持在稳定的强度,并且不能进一步增强。在本论文中,我们揭示了经过巩固过程后的场景恐惧记忆仍然能够被增强。我们发现场景恐惧记忆被动态的维持在中间水平,进而该记忆可以被双向调控。首先,我们观察到小鼠经过单次足底电击的场景恐惧记忆训练后,海马区CA1神经元(尤其
非重子暗物质是目前粒子物理、宇宙学、天体物理等领域中最重要的研究课题之一。作为最流行的非重子暗物质候选者,弱相互作用大质量粒子(WIMP)是主流暗物质直接探测实验的主要搜寻目标。如果探测到了WIMP候选信号,方向性的暗物质探测将最终证认暗物质信号来自于银河系WIMP。本课题主要利用微型时间投影室阵列探测器(MIcro-tpc MAtrix of Chambers,MIMAC)的原型探测器,对未来使
高离化态离子广泛存在于高温等离子体物质中,是非完全电离等离子体的基本构成,其辐射过程的研究对诸如X射线天文学、可控核聚变等涉及高温等离子体的相关研究领域具有非常重要的意义。因其核电荷数高且电子数远少于核电荷数,强库伦相互作用在该体系中起决定性作用,使其展现出不同于一般原子体系的物理特征。一方面相对论和高阶量子电动力学效应将变得相对显著;另一方面由于原子核强的库伦吸引使其电子运动具有更小的空间和时间
非编码RNA(non-coding RNA,ncRNA)在基因表达调控、染色体高级结构形成和亚细胞结构组装等生物学过程中起重要调控作用。本研究综合运用生物化学、遗传学及基因组等研究手段,对水稻生殖phasiRNA(phased small interfering RNAs)和拟南芥lncRNA进行系统鉴定与功能研究。禾本科植物花药中,存在一类长度为21-nt或24-nt的phasiRNA可以参与调
研究表明真核生物的细胞核内存在大量的RNA,其中一些RNA能够结合到特定的染色质位点,招募下游的调控因子,通过对特定染色质区域的组蛋白进行修饰、改变DNA甲基化状态或调节染色质的结构,调控基因表达。因此,确定各RNA分子在染色质上的结合位点,对于探究RNA在细胞核内的功能具有重要意义。GRID-seq(Global RNA interactions with DNA by deep sequenc
二维超导体展示了诸多新奇的物理现象,例如高温超导、拓扑超导、伊辛超导等等,是目前凝聚态物理的热点领域之一,也是探索具有更高临界温度和临界磁场等的超导体系的理想平台之一。鉴于二维超导体的结构特点,要深入理解其中的很多新奇物理现象的机制,需要制备出高质量的薄膜材料,并通过改变掺杂浓度、施加磁场和电场等手段对其物理性质进行精确地调控。在本论文中,我们利用离子固体调控和范德瓦尔斯堆叠等新的调控手段,研究了
桥塔是缆索支承桥梁中重要的受力构件,尤其是斜拉桥对桥塔的刚度、承载力等力学性能有严格的要求。钢板-混凝土组合结构桥塔丰富了桥塔结构形式的选择,对于解决多塔斜拉桥中塔刚度不足等关键技术问题具有重要意义。本文基于模型试验、数值分析、理论研究等多种方法,对钢板-混凝土组合结构桥塔从界面连接、塔壁构件、桥塔整体三个层面展开了研究,在组合桥塔的受力机理分析及设计方法研究方面取得的主要成果如下:(1)设计了一