论文部分内容阅读
目的:石斛属植物有1200-1500种,其中大多数都具有重要的药用和观赏价值。由于石斛属植物种间、种内形态相似、分布范围广泛、杂交种众多,市场上常出现质量参差不齐的石斛类药材及其混伪品,致使其用药安全和用药质量难以保证。目前,DNA条形码技术被认为是有较好前景的,可以进行快速精确的物种鉴定及系统进化分析方法。尽管使用单一位点或者多位点结合的DNA条形码都能对石斛属物种进行不同程度的鉴定,但其鉴别效果均存在一定的局限。近年来,随着基因组测序技术的不断成熟,植物全叶绿体基因组(Complete chloroplast genome,cp-genome)常被用以进行物种分类鉴定及遗传进化分析。本研究结合Illumina HiSeq 4000和Pacific Biosciences RSII两大测序平台的优点,获得高质量的中科4号铁皮石斛cp-genome序列,进行基因注释并绘制其完整的基因结构图。再以此cp-genome为参考基因组,用Illumina平台对41种50个石斛属样本的cp-genome进行深度重测序。对所得序列进行生物信息学和群体遗传学分析,寻找51株石斛属植物cp-genome的单核苷酸多态性(Single Nucleotide Polymorphisms,SNP)、小片段插入缺失(Insertion-deletion,InDel)位点,构建石斛属系统进化树,阐述石斛属物种间的亲缘关系,建立石斛属植物cp-genome鉴定系统。比较基于cp-genome中编码基因、非编码基因、SNP位点丰富的单基因及不同基因组合对石斛属植物的鉴别和分类效果,筛选出对石斛的鉴别和分类效果较好的基因片段,作为候选DNA条形码序列。再以79个兰科植物的DNA为模版,同时进行候选DNA条形码序列和ITS2、matK序列的扩增测序和聚类分析,分别基于石斛属cp-genome序列、候选DNA条形码序列、ITS2序列及matK序列的分类鉴定及系统进化分析结果进行比较,以验证和评价本研究所用DNA条形码序列在石斛属分类鉴定和系统分析中的作用。方法:1.样本采集及DNA提取:采集实验样本新鲜叶片,70%的酒精处理后,于-80℃保存。分离提取石斛属样本完整的cp-genome DNA,NanoDrop2000检测DNA纯度,Qubit荧光计检测DNA浓度,琼脂糖凝胶电泳检测DNA完整性,用covaris S220构建文库,进行桥式PCR,产生DNA簇,将DNA扩增子线性化成为单链。2.Cp-genome测序及测序原始数据分析:采用Truseq SBS Kit v3-HS(300cycles)试剂盒法进行Illumina Hiseq4000平台测序;利用G-tubes方法进行PacBio RSII平台测序。通过生物信息统计学的方法,对所有测序reads的每个circle进行碱基分布和质量波动的统计。对Illumina Hiseq的原始测序数据进行质量剪切,将单分子测序获得的每条read原始数据绘制成长度分布图。3.Cp-genome组装注释:用SOAPdenovo(v2.04)初步组装Illumina测序数据,然后用BLASR软件比对Pacbio的测序数据,再用Celera Assembler 8.0软件进行后续组装。利用Illumina数据进行校验,同时用软件GapCloser v1.12进行gap closing操作。用DOGMA进行基因预测和注释,绘制中科4号铁皮石斛完整的cp-genome基因结构图。通过与string v9.05数据库进行BLASTP(BLAST 2.2.28+)比对,获得基因所对应的COG注释结果,并根据COG注释结果对蛋白进行功能归类;运用BLAST算法(blastX/blastP 2.2.28+)将所获得的预测基因与KEGG的基因数据库(Genes)进行比对,根据比对得到的KO编号获得相应基因参与的具体生物学通路;最后通过BLAST2go软件对BLAST结果进行GO注释分析。4.构建石斛“cp-DNA-Barcode”鉴定系统:将获取的50个石斛属样本cp-genome DNA进行Illumina重测序,BWA软件将测序得到的reads与参考基因组序列进行比对,计算出相对于参考基因组的测序深度和覆盖度。GATK软件检测所测基因组单核苷酸多态性(Single Nucleotide Polymorphisms,SNP)、小片段插入缺失(Insertion-deletion,Indel),用本地脚本获得群体SNP集合。Mega7.02采用最大似然法(Maximum Likelihood,ML)构建系统进化树。利用群体SNP数据进行PCA(Principal Component Analysis)主成分分析。5.基于石斛属cp-genome序列信息及SNP分布信息筛选候选DNA条形码序列,用植物DNA提取试剂盒提取验证样品的总DNA为模板,进行ITS2、matK、及候选DNA条形码的PCR扩增和测序。用BioEdit 7.0、SnapGene Viewer 2.6.2和Mega 7.02对所得序列进行拼接组装、分析并提交至GenBank,基于候选DNA条形码序列和ITS2、matK序列构建系统进化树,预测ITS2序列的二级结构。结果:1.建立了基于Illumina平台及PacBio RSII平台的cp-genome全序列测序方案;获得了中科4号铁皮石斛高质量的cp-genome序列,总大小为152,185 bp,其中大单拷贝区(Large single copy,LSC)长85,094 bp,小单拷贝区(Small single copy,SSC)长14,521 bp两个插入重复区(Inverted repeat,IRs)长26,285 bp。Cp-genome GC含量为37.46%,其中127个基因被成功注释,包括89个蛋白质编码基因、30个tRNA基因和8个rRNA基因,分别占总cp-genome大小的比例为53.86%、6.92%和1.48%。有12个基因(atpF、clpP、ndhB-、ndhB+、ndhF、rpl2-、rpl2+、rpoC1、ycf1、ycf15-、ycf15+、ycf3)包含1-2个introns。2.COG注释结果表明石斛属cp-genome中参与翻译、核糖体结构和生物起源,能量产生与转换的基因数最多,分别为33、26个;KEGG基因功能注释分析结果表明参与代谢途径、光合作用及核糖体的基因数最多,分别为38、29、21个;GO注释到66个基因在细胞组成、生物学途径和分子功能中的参与率分别为50%~100%、1.51%~93.93%和9.09%~63.63%。3.重测序获得50条石斛属植物的cp-genome序列,检测出35,685个SNP以及3,944个InDel。SNP变异发生在基因的内含子、外显子、上游、下游和基因间隔区中所占的比例分别为31.10%、28.49%、23.21%、15.22%、1.98%。InDel变异发生在基因的内含子、上游、下游、外显子和基因间隔区中所占的比例分别为44.27%、31.52%、17.60%、4.54%、2.08%。4.采用K2P模型计算的51个石斛样本的种间遗传距离的范围是0.000-0.025,其中为0的只占0.08%,而遗传距离>0.0075占88.1%;种内遗传距离的范围是0.000-0.005,且本研究中有88.24%种内样本拥有自己独一无二的cp-genome序列。采用NJ法构建的系统进化树可100%的对51个石斛样本进行分类鉴定。5.基于石斛属SNP分布信息及cp-genome序列信息筛选出ycf1b和clpP-psbB作为候选DNA条形码。matK、ycf1b、clpP-psbB对51个石斛样本的鉴别率分别为96.25%、97.50%、97.50%,而当样本数为80个时ITS2、matK、ycf1b和clpP-psbB的鉴别率分别为90.00%,87.50%,92.59%和45.00%。此外,基于clpP-psbB序列的聚类结果则与传统的分类结果有较大差异,且置信度均较低;而基于ITS2、matK、ycf1b序列的聚类结果置信度均较高。根据四个螺旋臂构型、大小、臂环数、臂环位置和臂环夹角间的差异,将79个样本的ITS2序列二级结构大致分为A、B、C、D四类,来自同一物种不同产地的两个样本的ITS2序列的二级结构也存在一定的差异,如铁皮石斛、报春石斛(D.primulinum)、叠鞘石斛(D.aurantiacum)和喇叭唇石斛(D.lituiflorum)等。此外,基于ITS2、matK、ycf1b序列的聚类结果均显示未分组的石斛属植物檀香石斛(D.anosmum)与黑毛石斛(D.williamsonii)、喉红石斛(D.christyantum)与翅萼石斛(D.cariniferum)、姬竹叶石斛(D.hainanensis)与竹叶石斛(D.hancockii)具有较近的亲缘关系。结论:1.基于cp-genome能够100%的鉴别本研究中来自41个种的51个石斛属样本,还能有效鉴别本研究中3个不同产地来源(浙江、崀山和四川)的铁皮石斛。所获得的相对较大的野生石斛属cp-genome数据库,将为国内大多数石斛属植物提供准确可靠的参考序列,而庞大的SNP矩阵集也将为大多数药用石斛道地性标记序列的设计提供有用的数据。2.本研究基于51条石斛属编码和非编码基因、单一基因以及2个、3个、10个、16个基因组合构建的ML树及鉴别效率发现,基于ycf1b的ML树与基因整个cp-genome的拓扑结构、分类结果及鉴别效率最相近,基于2个、3个、10个、16个基因组合的序列在系统分类和鉴别效率上均未较ycf1b好,验证实验结果也证明ycf1b对石斛属植物有较好的分类鉴定效果。3.ITS2、matK、ycf1b序列均能鉴别本实验中大多数的石斛属物种,但都不能用于鉴别所有的石斛属物种,且无论是基于matK、ycf1b还是clpP-psbB序列,随着实验样本数量的增长其物种鉴别率就相应的下降。基于ITS2、matK、ycf1b序列的聚类结果置信度均较基于clpP-psbB序列的高,分类鉴定结果更可靠。这些序列信息能为大多数石斛属的物种鉴定提供可靠的依据,且为物种分类学和生物信息学的研究提供重要的系统进化信息。而ITS2序列二级结构可在一定程度上辅助分析石斛物种之间的演化关系。本研究在石斛属DNA条形码研究中的探索思路和方法以及获得的成果,将为石斛属DNA条形码的后续研究提供重要参考。