论文部分内容阅读
棉花是目前世界上最为重要的天然纤维来源。海岛棉和陆地棉是两大四倍体栽培棉种。与陆地棉相比,海岛棉为开发高档、高附加值的新型纺织品提供了重要的纤维材料,并对优化棉花产业结构起着尤为重要的经济作用。同时,海岛棉又是优质棉纤维基因的重要供体。但是相对陆地棉其广泛的适应性和高产特性,海岛棉则生育期长,成熟较晚,棉铃小且产量低。目前,棉纤维发育的基因组学研究和生物信息学分析将有效用于发掘纤维品质基因并阐明棉纤维发育机制,并用于分子设计育种技术创制优质棉资源材料,对改善纤维品质具有极为重要的意义。本文基于棉纤维发育EST序列进行分子标记开发及棉属不同棉种来源EST序列同源性生物信息学分析研究,主要研究结果如下:1.简单重复序列SSRs于转录组中大量存在,具有较高的多态性且已广泛的应用于分子标记的开发。本研究基于海岛棉-3-5DPA和6-25DPA纤维发育时期的2个cDNA文库大规模测序所得的ESTs序列数据,鉴定出638个SSRs和13,275个海陆同源EST序列中InDels信息。进而开发出海岛棉380个EST-SSRs及2,160个海陆EST-InDels分子标记。其中随机合成90对EST-InDels标记引物用于海陆多态PCR电泳检测,结果显示,64对引物扩增位点具有海陆种间或种内亚组间多态性,20对引物未检测到多态性,6对引物无扩增产物。随机选择的9对EST-InDel标记产生的多态位点进一步测序证实其InDel的真实性。2.海陆间EST序列的InDel差异直接与其功能相关。进一步对检测到InDels信息的13,275个海陆同源EST序列进行基因功能注释、基因本体学GO分析和KEGG代谢途径分析。生物信息学分析显示涉及蔗糖代谢以及次生壁合成过程的相关纤维发育基因,如蔗糖合酶、纤维素合酶及糖基转移酶等基因,在海陆间存在InDels差异。这些基因转录产物的序列差异可能与海陆纤维品质表型差异相关。同时也检测到种子脂类代谢和蛋白代谢相关的基因。研究结果为揭示棉纤维及棉籽发育关键基因以及阐明其基因网络作用机理奠定了基础。3.棉花四倍体棉种大约于1-2百万年前由自然发生的两个二倍体A,D基因组杂交后经过多倍化形成,棉属不同棉种是共同起源,单元进化的。不同棉种来源的EST序列同源分析,也证明棉属不同棉种基因序列的保守性及基因内部位点的变异性。本研究中,基于棉属四个棉种(包括两个四倍体棉种:陆地棉和海岛棉;两个二倍体棉种:亚洲棉和雷蒙德氏棉)来源的ESTs序列聚类组装,分析了不同棉种ESTs重叠群Contigs的物种分布,发现来源于雷蒙德氏棉D基因组ESTs,50.77%的序列可以和四倍体聚类到一个重叠群Contig中,而亚洲棉A基因组仅17.15%的ESTs参与四倍体的聚类,说明雷蒙德氏棉与四倍体Dt基因组间较近的亲缘关系,而亚洲棉与四倍体At基因组亲缘关系则相对较远。4.通过对包含四倍体和二倍体棉种的四个不同基因组组成的重叠群进行SNPs/InDels挖掘,发现了高可信度的SNP/InDels位点信息,随后通过单体型分析,鉴定了A/At、D/Dt同源基因,发现在A/At与D/Dt差异位点具有高度保守性外,大部分重叠群At和Dt基因组内部均各自产生了许多新的变异位点,说明异源四倍体At、Dt基因组在基因进化中呈现独立进化,且在多倍化过程中产生了更多适应性进化的结构变异。基于海陆同源基因的SNP差异,开发出针对1340个基因的海陆差异SNP标记,用于基因结构及表达水平分析研究。5.鉴于棉花多倍体基因组进化特征,使得棉花基因组数据中存在大量同源序列,造成了不同来源SSRs分子标记的冗余性。本研究针对CMD收录的棉花SSRs标记以及本实验室新开发的NAU系列标记,共计15,810对引物进行冗余性分析。共获得1,530冗余组,含有4,034对引物。基于获得的冗余引物组,可开发1,530通用性SSRs分子标记,整合余下的非冗余SSRs标记,获得13,306对非冗余SSRs标记。6.基于美国JGI释放的雷蒙德氏棉基因组测序数据,将已开发的所有SSRs标记进行了物理定位。结果显示,9,697个SSRs标记引物成功锚定在雷蒙德氏棉全基因组,分布在不同的染色体上。其中8,809对引物特异的锚定在单一染色体区间,26对标记引物锚定在同一染色体多个位点,而862对引物则分布在不同染色体上。根据模拟扩增产物大小分析,9,124个SSRs分子标记的产物大小位于500bp阈值内,是高准确性定位位点。产物大小位于500-1000bp内的中度准确性定位的标记有369个SSRs标记,而>=2000bp的物理定位可靠性低的标记有204个。分子标记的物理定位结果将为后续目标基因图位克隆,QTL精细定位等研究提供整合标记资源。7.基于美国JGI释放的雷蒙德氏棉基因组测序数据,将我室构建的含3,414位点的海陆高密度遗传图谱和雷蒙德氏棉全基因组物理序列进行整合。2,696对(81.10%)标记引物成功被锚定在雷蒙德氏棉13对染色体基因组上。其中,大部分均为特异性锚定(2,236,82.94%)。分析发现D/Dt基因组具有较高的共线性,而在At2/At3, At4/At5染色体间则存在较大区域的染色体易位。图谱整合数据为棉花四倍体棉种全基因组测序,重要性状QTL及候选基因精细定位、图位克隆及比较基因组学等研究奠定了基础。