论文部分内容阅读
长非编码RNAs(lnc RNAs)是长度在200 nt以上的非编码RNAs,在胚胎发育、癌症、病痛和炎症等过程中发挥重要的作用。然而,目前公共数据库中小鼠lnc RNAs数据较少,而其中被功能注释的则更少。脑组织是lnc RNAs表达的主要器官,预测脑表达lnc RNAs对于全面识别小鼠脑发育相关的lnc RNAs及认识其在脑发育中的作用具有重要意义。此外,将预测的lnc RNAs与已知lnc RNAs进行整合、注释并存储进专门的数据库中对于lnc RNAs的规范化和再利用具有重要意义。小鼠DNA元件百科全书计划测定了大量组织和细胞系的RNA测序(RNA-Seq)和染色质免疫共沉淀测序等高通量数据,对于预测新的lnc RNAs提供了一个新的思路。因此,本研究收集大量组织和细胞系的RNA-Seq数据,基于RNA-Seq筛选鉴别新lnc RNAs,通过基因组、转录组、表观基因组和功能基因组学表征证明其有效性,利用模型进行特征选择从而筛选脑发育相关的lnc RNAs。整合已知和基于大规模RNA-Seq数据预测的lnc RNAs,构建lnc RNAs注释平台和开发分析工具,便利研究人员的使用。本论文首先对已有的RNA-Seq流程进行优化,进而筛选胚胎脑发育相关的基因间、内含子和顺式反义3种类型lnc RNAs。分别从基因组、转录组、表观基因组和功能基因组学方法表征胚胎脑发育相关的新lnc RNAs,并与已知lnc RNAs和编码转录本进行比较。结果表明新lnc RNAs具有相对完整的基因结构及较低的编码潜能,具有与已知lnc RNAs相似的组织特异性,并与典型的染色质修饰相关。功能富集分析和基于RNA干扰的分析结果表明胚胎脑发育相关的lnc RNAs具有潜在的脑发育调控功能和结合转录因子发挥功能的倾向。随机挑选的lnc RNAs的实验验证结果进一步表明lnc RNAs具有较强的发育阶段特异性并且可能受到印记机制调控。其次,LASSO调整的罗杰斯特回归模型在本论文中被用于筛选lnc RNAs与编码转录本之间的基因组和表观基因组学差异。由于使用了3个发育阶段的染色质修饰数据,因此差异的特征可并用于筛选脑发育过程相关的lnc RNAs。对模型进行十倍交叉证实和独立检验集测试后发现特征选择模型的性能和只使用基因组特征和染色质修饰特征相近,表明少数特征对lnc RNAs的预测发挥了主要作用。基于特征选择模型对3个发育阶段的RNA-Seq数据预测的候选lnc RNAs进行进一步筛选。通过对新lnc RNAs进行的基因组、转录组和功能基因组学方法表征表明模型筛选脑发育相关lnc RNAs的有效性。研究lnc RNAs与临近编码基因的关系后发现lnc RNAs倾向于与临近编码基因共表达,表明lnc RNAs可能调控临近基因。当使用模型分析lnc RNAs特异性后,发现lnc RNAs在脑发育过程中的表达特异性受到发育阶段特异的染色质修饰调控,例如H3K4me1和H3K36me3,但并未发现受到基因组特征调控,表明LASSO模型具有脑发育过程特异lnc RNAs的识别能力。原位杂交结果验证了随机挑选的lnc RNAs的脑发育特异性,而半定量RT-PCR结果发现胚胎发育阶段特异表达的lnc RNAs倾向于具有脑组织特异性。再次,目前公共数据库中lnc RNAs的数目较少,于是整合基于大规模的RNA-Seq数据预测的lnc RNAs和已知lnc RNAs注释,从而识别出了约26万个lnc RNA转录本,称之为lnc RNA合集。其中新lnc RNAs占75%,暗示大部分小鼠lnc RNAs尚未被报道。分析发现该合集中新lnc RNAs具有脑器官特异性,但没有发育阶段特异性。对新lnc RNAs和已知转录本进行加权共表达网络分析发现了57个模块,其中对脑组织表达的转录本模块进行的表达谱热图和GO生物学过程富集分析表明脑模块中脑特异基因的富集,为功能注释奠定基础。基于随机化实验确定的共表达阈值,筛选了12 548个预测的具有功能的lnc RNAs,其中包括3 128个预测的脑功能相关的lnc RNAs。进一步利用牵连获罪(guilt by association)方法预测新lnc RNAs的功能,结果发现预测出功能的新lnc RNAs数量比基于加权共表达网络的方法的数量多1倍,并且注释的功能条目数目要多2倍以上,突出了这种方法在预测lnc RNAs功能方面的作用。基于交叉证实和独立测试数据的检验初步证明牵连获罪方法的有效性。最后,对lnc RNA合集中脑表达的lnc RNAs进行筛选,得到约246 464个lnc RNAs。对这些lnc RNAs进行基因组和功能基因组注释,发现已知基因注释仅能覆盖不足1/3的lnc RNAs;而几乎所有的lnc RNAs都可以通过Entrez Gene ID得以在基因组定位,因此lncbrain注释平台中可以通过该ID进行lnc RNAs查询。对lnc RNAs的注释存储在建立的lncbrain注释平台中,该平台具有较优的平台设计架构及可视化界面,可对查询进行流畅的响应。平台中除了有预先计算好的基因组注释,还有支持使用者实时的表观基因组和功能基因组分析模块。此外,本文还对lncbrain平台的使用进行了详细的介绍。综上所述,本文筛选了大量的脑表达的lnc RNAs,并构建lnc RNA合集。对lnc RNAs进行了基因组、转录组、表观基因组和功能基因组学注释。构建的平台有助于实验人员进行脑功能lnc RNAs的筛选及生物信息学研究人员进行lnc RNAs的大规模研究。