论文部分内容阅读
长非编码RNAs(lncRNAs)是长度在200 nt以上的非编码RNAs,在胚胎发育、癌症、病痛和炎症等过程中发挥重要的作用。然而,目前公共数据库中小鼠lncRNAs数据较少,而其中被功能注释的则更少。脑组织是lncRNAs表达的主要器官,预测脑表达lncRNAs对于全面识别小鼠脑发育相关的lncRNAs及认识其在脑发育中的作用具有重要意义。此外,将预测的lncRNAs与已知lncRNAs进行整合、注释并存储进专门的数据库中对于lncRNAs的规范化和再利用具有重要意义。小鼠 DNA元件百科全书计划测定了大量组织和细胞系的RNA测序(RNA-Seq)和染色质免疫共沉淀测序等高通量数据,对于预测新的lncRNAs提供了一个新的思路。因此,本研究收集大量组织和细胞系的RNA-Seq数据,基于RNA-Seq筛选鉴别新lncRNAs,通过基因组、转录组、表观基因组和功能基因组学表征证明其有效性,利用模型进行特征选择从而筛选脑发育相关的lncRNAs。整合已知和基于大规模 RNA-Seq数据预测的lncRNAs,构建lncRNAs注释平台和开发分析工具,便利研究人员的使用。 本论文首先对已有的RNA-Seq流程进行优化,进而筛选胚胎脑发育相关的基因间、内含子和顺式反义3种类型 lncRNAs。分别从基因组、转录组、表观基因组和功能基因组学方法表征胚胎脑发育相关的新 lncRNAs,并与已知lncRNAs和编码转录本进行比较。结果表明新lncRNAs具有相对完整的基因结构及较低的编码潜能,具有与已知lncRNAs相似的组织特异性,并与典型的染色质修饰相关。功能富集分析和基于RNA干扰的分析结果表明胚胎脑发育相关的lncRNAs具有潜在的脑发育调控功能和结合转录因子发挥功能的倾向。随机挑选的lncRNAs的实验验证结果进一步表明lncRNAs具有较强的发育阶段特异性并且可能受到印记机制调控。 其次,LASSO调整的罗杰斯特回归模型在本论文中被用于筛选 lncRNAs与编码转录本之间的基因组和表观基因组学差异。由于使用了3个发育阶段的染色质修饰数据,因此差异的特征可并用于筛选脑发育过程相关的lncRNAs。对模型进行十倍交叉证实和独立检验集测试后发现特征选择模型的性能和只使用基因组特征和染色质修饰特征相近,表明少数特征对lncRNAs的预测发挥了主要作用。基于特征选择模型对3个发育阶段的RNA-Seq数据预测的候选lncRNAs进行进一步筛选。通过对新lncRNAs进行的基因组、转录组和功能基因组学方法表征表明模型筛选脑发育相关lncRNAs的有效性。研究lncRNAs与临近编码基因的关系后发现 lncRNAs倾向于与临近编码基因共表达,表明lncRNAs可能调控临近基因。当使用模型分析lncRNAs特异性后,发现lncRNAs在脑发育过程中的表达特异性受到发育阶段特异的染色质修饰调控,例如H3K4me1和H3K36me3,但并未发现受到基因组特征调控,表明LASSO模型具有脑发育过程特异 lncRNAs的识别能力。原位杂交结果验证了随机挑选的lncRNAs的脑发育特异性,而半定量RT-PCR结果发现胚胎发育阶段特异表达的lncRNAs倾向于具有脑组织特异性。 再次,目前公共数据库中 lncRNAs的数目较少,于是整合基于大规模的RNA-Seq数据预测的lncRNAs和已知lncRNAs注释,从而识别出了约26万个lncRNA转录本,称之为 lncRNA合集。其中新 lncRNAs占75%,暗示大部分小鼠lncRNAs尚未被报道。分析发现该合集中新lncRNAs具有脑器官特异性,但没有发育阶段特异性。对新lncRNAs和已知转录本进行加权共表达网络分析发现了57个模块,其中对脑组织表达的转录本模块进行的表达谱热图和GO生物学过程富集分析表明脑模块中脑特异基因的富集,为功能注释奠定基础。基于随机化实验确定的共表达阈值,筛选了12548个预测的具有功能的lncRNAs,其中包括3128个预测的脑功能相关的lncRNAs。进一步利用牵连获罪(guilt by association)方法预测新 lncRNAs的功能,结果发现预测出功能的新 lncRNAs数量比基于加权共表达网络的方法的数量多1倍,并且注释的功能条目数目要多2倍以上,突出了这种方法在预测lncRNAs功能方面的作用。基于交叉证实和独立测试数据的检验初步证明牵连获罪方法的有效性。 最后,对lncRNA合集中脑表达的lncRNAs进行筛选,得到约246464个lncRNAs。对这些 lncRNAs进行基因组和功能基因组注释,发现已知基因注释仅能覆盖不足1/3的lncRNAs;而几乎所有的lncRNAs都可以通过Entrez Gene ID得以在基因组定位,因此 lncbrain注释平台中可以通过该 ID进行 lncRNAs查询。对lncRNAs的注释存储在建立的lncbrain注释平台中,该平台具有较优的平台设计架构及可视化界面,可对查询进行流畅的响应。平台中除了有预先计算好的基因组注释,还有支持使用者实时的表观基因组和功能基因组分析模块。此外,本文还对lncbrain平台的使用进行了详细的介绍。 综上所述,本文筛选了大量的脑表达的lncRNAs,并构建 lncRNA合集。对lncRNAs进行了基因组、转录组、表观基因组和功能基因组学注释。构建的平台有助于实验人员进行脑功能 lncRNAs的筛选及生物信息学研究人员进行lncRNAs的大规模研究。