论文部分内容阅读
在杏全基因组测序和重测序的基础上,进行杏核心SNP标记的开发,为构建基于SNP标记技术的指纹图谱进行杏品种特异性和真实性鉴别具有重要意义,并为进一步开展重要性状的全基因组关联分析与基因挖掘奠定良好基础。以中国150个主栽杏品种为材料进行DNA文库构建,构建好的文库通过Illumina HiSeqTM PE150进行测序。对原始测序数据中包含的接头信息、低质量碱基、未测出的碱基进行过滤,最终得到有效数据。同时,Clean data与NCBI的核苷酸数据库进行比对,评估是否有其他来源的DNA污染。原始测序数据经过基本质控后,通过与参考基因组比对,进行变异检测及筛选;对BWA比对结果进行过滤,将比对到杏基因组上唯一位置的reads挑选出来进行后续分析;采用SAMTOOLS对过滤后的数据进行群体SNP的检测,利用ANNOVAR软件对SNP检测结果进行注释,进而进行核心SNP标记开发。对150个杏品种DNA样品进行建库,结果表明,平均每个个体的Raw data为4.02 G,总测序量为603.24 G,测序质量高(Q20≥90%,Q30≥85%),样本GC分布正常,建库测序成功。Reads与参考基因组比对结果表明,参考基因组大小为216 778 587 bp,分析的杏样本比对率在82%~93%之间,对参考基因组(排除N区)的平均覆盖深度在9~19之间,4X覆盖度(至少有4个碱基的覆盖)在72%以上。未过滤前,共检测到SNP 9 915 800个。以样品深度不低于6X、覆盖所有群体94%以上个体、位点基因频率MAF不低于0.2、多态性信息含量PIC值大于0.3、SNP位点位于基因上下游及基因内等条件对SNP分子标记进行筛选,符合上述条件的作为核心SNP,最终获得49 382个位点,其中位于基因内含子的22865个(46.30%),外显子的13834个(28.01%),基因上、下游的52个(25.58%),剪切位点的631个(0.11%)。SNP标记在染色体上均匀分布。