论文部分内容阅读
家养动物是遗传学研究的很好模型,尤其它们经过长期的人工选择已经形成了丰富的遗传多样性。家猪和家犬作为重要的家养动物,在蛋白水平已经进行了较深入的研究,并定位了一些在蛋白编码基因中的突变,这些突变和家猪或家犬的驯化有关。例如,和欧洲家猪肌肉生长相关的IGF2第三个内含子中一个碱基替代(G->A);和家犬体型大小相关的在IGF1中的SINE重复序列。现有研究表明,在基因组中基因间区长链非编码RNA(lincRNA)基因的数量可能远远超过蛋白编码基因的数量。但在家养动物领域还没有全基因组鉴定lincRNA基因,并研究lincRNA是否会像蛋白编码基因一样与家养动物的表型多样性有关。近年来,高通量测序技术得到了长足的发展,在家养动物中有越来越多的RNA-seq、甲基化和重测序方面的数据被发表,这为我们深入研究家养动物的lincRNA并从多组学角度探讨lincRNA和家养动物驯化的关系提供很好的机遇。在我们的研究中,我们对家猪和家犬的lincRNA进行深入挖掘并在家猪中探讨lincRNA甲基化与家猪驯化的关系。为了方便挖掘和性状相关的SNP并鉴定致因突变,我们开发了猪的SNP和正选择数据库。1.LincRNA在家猪驯化过程中的作用在人类和小鼠的基因组中已经鉴定了接近10000条lincRNA转录本。有些lincRNA基因在很多重要的生物过程中发挥重要的功能。猪是重要的家养动物,但是猪的lincRNA还没有被深入研究,以及lincRNA是否参与家猪的驯化过程至今还没有深入的研究。为了回答这些问题,我们首先整合了 93个RNA-seq样本和表达序列标签(EST)的数据,鉴定了 6621个lincRNA转录本,它们位于4515个基因座中。在这些lincRNA中,有些lincRNA与人类和小鼠lincRNA表现为线性保守并在脊椎动物中序列保守。这包括linc-sscg2561基因,该基因和情感行为相关的DNMT3A基因相邻。linc-sscg2561和DNMT3A基因在欧洲家猪和欧洲野猪的大脑前额表现为显著表达差异,这说明linc-sscg2561可能和家猪的驯化有关。这个研究是首次从全基因组角度分析研究猪的lincRNA。2.LincRNA在猪的脂肪和肌肉组织的DNA甲基化的研究基因间区长链非编码RNA(lincRNA)是基因组的重要组成部分。在该研究中,我们对已发表的甲基化DNA免疫共沉淀测序重新分析来研究lincRNA在脂肪和肌肉组织的DNA甲基化模式。我们发现lincRNA基因的甲基化水平高于蛋白编码基因的甲基化水平,将启动子、外显子和内含子分开来看,也有相同的趋势。在转录起始位点区域,lincRNA基因和蛋白编码基因有不同的甲基化模式。此外,许多lincRNA基因和差异甲基化区域重叠,这些差异甲基化在具有不同脂肪含量品系的不同性别、不同解剖部位的组织中鉴定。我们鉴定了一个lincRNA,linc-sscg3623,在荣昌猪和长白猪的脂肪组织有不同的甲基化水平。在不同发育阶段的大白猪和民猪的背膘组织,在60天和120天它们有不同的甲基化水平。在150天和180天的民猪和大白猪有个去甲基化过程,然而在180天和210天有个重新甲基化的过程。这些结果有利于我们对于家养动物驯化的理解并有利于鉴定和脂肪沉积和肌肉发育相关的lincRNA基因。3.家犬的遗传多样性为lincRNA的功能研究提供重要的线索现有研究表明,在基因组中lincRNA基因的数量多于蛋白编码基因的数量。家犬是第一个被驯养的家养动物,由于长期的人工选择产生了丰富的遗传多样性。相比于它的野生祖先,家犬在行为上发生了很大的转变。因此在组学水平研究家犬的lincRNA可能为深入研究lincRNA在神经系统的功能提供重要线索。在该研究,我们整合了 RNA-seq、EST和RefSeq数据,鉴定了 5590个lincRNA基因,编码8670个lincRNA转录本。在这些lincRNA基因中,我们鉴定了一个lincRNA基因在家犬和灰狼的大脑前额表现为显著的表达差异,在脊椎动物中序列保守,并且在人类和家犬中基因组线性保守。因此,我们对linc-4682进行了深入的功能研究。用U251和T98G两种人神经胶质瘤细胞系作为模型研究发现,linc-4682敲减后会导致细胞凋亡增加。进一步实验证明Linc-4682可以和角蛋白1(KRT1)直接相互作用,。有趣的是,免疫荧光实验发现,在linc-4682敲减组中,细胞质中的KRT1定位减少。同时免疫印迹实验证明了linc-4682的敲减确实会导致细胞中KRT1表达的减少。这个研究说明,lincRNA在家犬驯化过程中可能发挥了重要作用。4.猪的SNP和正选择信号数据库的构建现在数百个猪的重测序数据已经通过二代测序技术产生,但是现在还没有一个数据库来保存从这些数据鉴定出来的SNP数据。为了完整dbSNP数据库对于SNP数据分析的缺陷,并统一 SNP鉴定的策略,我们用GATK软件在184个猪中鉴定了 4亿7千万个高质量的SNP,在来源于6个外群物种的7个个体鉴定了 3亿6千万个SNP。我们用5个不同的统计量来计算这些SNP的正选择信号。整合这些非冗余的SNP和它们的正选择统计量的数据,我们构建了第一个猪SNP相关的开放数据库,PigSPS(http://res.xaut.edu.cn/pigsps/)。此外,PigSPS整合了 SNP是否位于蛋白编码基因和lincRNA基因的相关信息,以及它们是否会引起异义突变与同义突变;古代型和衍生型的状态;样本分布地和品系信息。这个数据库可以使我们浏览并在猪的相关研究中全面做SNP相关的分析。通过以上研究,我们首次从全基因组角度鉴定了猪和家犬的lincRNA,并发现它们有不同于蛋白编码基因的特征,例如,序列长度;外显子数量和表达量。通过分析lincRNA在家猪肌肉和脂肪组织的甲基化的模式,我们也发现1 incRNA和蛋白编码基因在DNA甲基化方面也有不同的特征。为了方便鉴定在家猪中鉴定和性状的SNP,我们构建了猪的SNP和正选择相关的数据库,这为研究蛋白编码基因和lincRNA基因调控家猪的表型多样性提供方便。