论文部分内容阅读
长链非编码RNA(lncRNA,long non-coding RNA)是一类转录本长度大于200 bp,且被认为具有较小蛋白编码潜能的RNA,它可以通过参与染色质的修饰、X染色体沉默以及基因组印记、转录干扰、转录激活和核内运输等多个重要过程发挥生物学功能。随着ENCODE计划的启动,以及受到人、小鼠等模式生物lncRNAs相关研究的启发,猪的非编码RNA研究已逐渐起步。在另一方面,骨骼肌生长发育为一个复杂的过程,中国地方脂肪型猪和外国瘦肉型猪在产量性状上存在巨大差异,为猪骨骼肌生长发育的分子机制研究提供了良好的素材。本研究整合了NCBI的SRA数据库下载的数据和实验室已测序的转录组的高通量数据,包涵骨骼肌、脂肪等12种组织,651个生物学样本,19个生物学项目,共1.3 TB数据量。因数据库中测序方法的影响,在这里只关注lincRNA(long intergenic non-coding RNA),对所有的样品进行linc RNA系统鉴定、lincRNA特征分析、组织特异性分析、并挖掘与骨骼肌生长发育相关的linc RNA。研究结果如下:(1)基于搭建的lincRNA鉴定流程,共得到12,564条候选lincRNA。(2)基因组特征分析显示,lincRNA在1、6和13号染色体上分布数量相对较多,分别为1196、822和908条,而其它染色体的数目分布较为均匀,这些结果表明lincRNA具有一定的染色体倾向性。linc RNA的平均长度为1380 bp,其中长度为2011000 bp的lincRNA占比57%,长度为10002000bp的占比19%。蛋白编码基因的转录本长度为2800 bp。lincRNA的平均外显子分布为3.2个,而蛋白编码基因的平均外显子数为8.7个。将鉴定的lincRNA与之前相关研究比较,发现与NONCODE数据库中211条序列同源,与ALDB数据库中1538条同源。(3)在卵巢中具有最多特异表达的lincRNA(537条,占所有特异表达lincRNA的32.14%),在肾脏、肺、子宫、脾脏、血液、肝脏、耳组织、心脏、肌肉、脑和脂肪组织中特异表达的lincRNA分别为179、136、128、124、123、114、90、74、58、56和52条。在这些组织特异表达的lincRNA中,我们还找到了与其功能相关的候选lincRNA。且lincRNA表达模式相对于蛋白编码基因具有更强的组织特异性。(4)将骨骼肌样品27个发育时间点,分为胚胎早期(E33-E65)、胎儿期(E70-E105)、新生期(D0-D60)和成熟期(D80-D180)等四个发育阶段。不同发育阶段lincRNA的差异表达结果显示:胎儿期与新生期显著差异表达的lincRNA数量最多,共计409条。功能富集分析表明,在骨骼肌多个生长发育阶段都差异表达的lincRNA主要与胚胎的发育、肌细胞代谢和生长因子受体的结合有关,包括LincTCONS00326005、LincTCONS00326798和LincTCONS00323540等179条。综上所述,本研究首次在猪上整合当前已有数据库的RNA-seq,鉴定并分析lincRNA的特征、组织功能相关的lincRNA,并挖掘在骨骼肌生长发育中发挥重要调控的lincRNA,为猪的分子育种提供候选标记。