小鼠脑发育相关IncRNAs的高通量筛选及注释平台构建

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:w119634336
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
长非编码RNAs(lnc RNAs)是长度在200 nt以上的非编码RNAs,在胚胎发育、癌症、病痛和炎症等过程中发挥重要的作用。然而,目前公共数据库中小鼠lnc RNAs数据较少,而其中被功能注释的则更少。脑组织是lnc RNAs表达的主要器官,预测脑表达lnc RNAs对于全面识别小鼠脑发育相关的lnc RNAs及认识其在脑发育中的作用具有重要意义。此外,将预测的lnc RNAs与已知lnc RNAs进行整合、注释并存储进专门的数据库中对于lnc RNAs的规范化和再利用具有重要意义。小鼠DNA元件百科全书计划测定了大量组织和细胞系的RNA测序(RNA-Seq)和染色质免疫共沉淀测序等高通量数据,对于预测新的lnc RNAs提供了一个新的思路。因此,本研究收集大量组织和细胞系的RNA-Seq数据,基于RNA-Seq筛选鉴别新lnc RNAs,通过基因组、转录组、表观基因组和功能基因组学表征证明其有效性,利用模型进行特征选择从而筛选脑发育相关的lnc RNAs。整合已知和基于大规模RNA-Seq数据预测的lnc RNAs,构建lnc RNAs注释平台和开发分析工具,便利研究人员的使用。本论文首先对已有的RNA-Seq流程进行优化,进而筛选胚胎脑发育相关的基因间、内含子和顺式反义3种类型lnc RNAs。分别从基因组、转录组、表观基因组和功能基因组学方法表征胚胎脑发育相关的新lnc RNAs,并与已知lnc RNAs和编码转录本进行比较。结果表明新lnc RNAs具有相对完整的基因结构及较低的编码潜能,具有与已知lnc RNAs相似的组织特异性,并与典型的染色质修饰相关。功能富集分析和基于RNA干扰的分析结果表明胚胎脑发育相关的lnc RNAs具有潜在的脑发育调控功能和结合转录因子发挥功能的倾向。随机挑选的lnc RNAs的实验验证结果进一步表明lnc RNAs具有较强的发育阶段特异性并且可能受到印记机制调控。其次,LASSO调整的罗杰斯特回归模型在本论文中被用于筛选lnc RNAs与编码转录本之间的基因组和表观基因组学差异。由于使用了3个发育阶段的染色质修饰数据,因此差异的特征可并用于筛选脑发育过程相关的lnc RNAs。对模型进行十倍交叉证实和独立检验集测试后发现特征选择模型的性能和只使用基因组特征和染色质修饰特征相近,表明少数特征对lnc RNAs的预测发挥了主要作用。基于特征选择模型对3个发育阶段的RNA-Seq数据预测的候选lnc RNAs进行进一步筛选。通过对新lnc RNAs进行的基因组、转录组和功能基因组学方法表征表明模型筛选脑发育相关lnc RNAs的有效性。研究lnc RNAs与临近编码基因的关系后发现lnc RNAs倾向于与临近编码基因共表达,表明lnc RNAs可能调控临近基因。当使用模型分析lnc RNAs特异性后,发现lnc RNAs在脑发育过程中的表达特异性受到发育阶段特异的染色质修饰调控,例如H3K4me1和H3K36me3,但并未发现受到基因组特征调控,表明LASSO模型具有脑发育过程特异lnc RNAs的识别能力。原位杂交结果验证了随机挑选的lnc RNAs的脑发育特异性,而半定量RT-PCR结果发现胚胎发育阶段特异表达的lnc RNAs倾向于具有脑组织特异性。再次,目前公共数据库中lnc RNAs的数目较少,于是整合基于大规模的RNA-Seq数据预测的lnc RNAs和已知lnc RNAs注释,从而识别出了约26万个lnc RNA转录本,称之为lnc RNA合集。其中新lnc RNAs占75%,暗示大部分小鼠lnc RNAs尚未被报道。分析发现该合集中新lnc RNAs具有脑器官特异性,但没有发育阶段特异性。对新lnc RNAs和已知转录本进行加权共表达网络分析发现了57个模块,其中对脑组织表达的转录本模块进行的表达谱热图和GO生物学过程富集分析表明脑模块中脑特异基因的富集,为功能注释奠定基础。基于随机化实验确定的共表达阈值,筛选了12 548个预测的具有功能的lnc RNAs,其中包括3 128个预测的脑功能相关的lnc RNAs。进一步利用牵连获罪(guilt by association)方法预测新lnc RNAs的功能,结果发现预测出功能的新lnc RNAs数量比基于加权共表达网络的方法的数量多1倍,并且注释的功能条目数目要多2倍以上,突出了这种方法在预测lnc RNAs功能方面的作用。基于交叉证实和独立测试数据的检验初步证明牵连获罪方法的有效性。最后,对lnc RNA合集中脑表达的lnc RNAs进行筛选,得到约246 464个lnc RNAs。对这些lnc RNAs进行基因组和功能基因组注释,发现已知基因注释仅能覆盖不足1/3的lnc RNAs;而几乎所有的lnc RNAs都可以通过Entrez Gene ID得以在基因组定位,因此lncbrain注释平台中可以通过该ID进行lnc RNAs查询。对lnc RNAs的注释存储在建立的lncbrain注释平台中,该平台具有较优的平台设计架构及可视化界面,可对查询进行流畅的响应。平台中除了有预先计算好的基因组注释,还有支持使用者实时的表观基因组和功能基因组分析模块。此外,本文还对lncbrain平台的使用进行了详细的介绍。综上所述,本文筛选了大量的脑表达的lnc RNAs,并构建lnc RNA合集。对lnc RNAs进行了基因组、转录组、表观基因组和功能基因组学注释。构建的平台有助于实验人员进行脑功能lnc RNAs的筛选及生物信息学研究人员进行lnc RNAs的大规模研究。
其他文献
随着互联网与通信技术的飞速发展,移动阅读日益演变成一种新型的消费形态,移动端APP也成为纸质书之外最重要的阅读载体之一。在原有技术接受模型基础之上,结合计划行为理论与
我国的天然气资源丰富,来源广泛。丙烷是天然气中所含低碳烷烃的重要组分,催化选择氧化丙烷这一课题具有工业应用和理论研究的双重价值。但由于丙烷的稳定性和丙烯醛的活泼性
肺部疾病是儿童最常见的疾病。既往临床上对肺部疾病的影像学检查主要依靠胸部X线片、胸部CT,但其存在放射性损伤,而且危重患者进行胸部影像学检查时往往因被搬动而增加疾病
本文研究了一种流变性可逆光敏胶束新体系,该体系由Gemini阳离子表面活性剂丙撑基双(十八烷基二甲基氯化铵)(18-3-18)与反式偶氮苯-4-苯甲酸(trans-ACA)复配而成。考察了体系
科技金融是创新创业的重要支撑。湖北省的创新比较优势之所以没有完全转化为产业竞争优势,很大程度上源于不同行政层级(省与高新区级)科技金融政策协同、衔接不够导致的政策
蛋白质芯片起源于20世纪80年代,它是将大量蛋白质规则地固定到某种基底表面形成微阵列,利用蛋白质与蛋白质、蛋白质与核酸、蛋白质与小分子之间的相互作用,实现大量目标蛋白
朱子引导门人参与文献建设活动,有散在文字信息记载,学界有所关注而尚无系统整理.以梳理朱熹《大学》文本改造的动态过程为主线,从中考察朱子门人所起的羽翼作用.
隋唐时期的伦理思想,受着经济政治状况的制约,随着社会思潮的变化而变化。它以批判名教开始,中经玄学、佛学的伦理学说,最后复归到儒家伦理纲常而宣告结束。主要阐述了佛学、