论文部分内容阅读
目的:多等位基因单核苷酸多态性(multi-allelic single nucleotide p olymorphisms,multi-allelic SNPs)与大多数二等位基因SNPs不同,其含有三个或以上等位基因,在人类基因组的300多万个SNPs中只占很小一部分。这种类型的遗传标记既有二等位SNP突变率低、扩增片段短、携带表型或祖先信息以及检测方法灵活多样等优势,同时具有短串联重复序列(short tandem repeats,STR)多态性较高的优势,是非常理想的法医学遗传标记,对于混合样本、微量降解样本等疑难检材更具优越性,且对于复杂亲缘关系的鉴定也是有利的补充。因此,本研究拟筛选适合中国人群的多等位基因SNP基因座,利用下一代测序技术(next generation seq uencing,NGS)构建复合扩增体系,评估其法医学应用价值,为法医学个人识别和亲子鉴定提供新的遗传标记和数据。方法:1. 多等位SNP基因座的筛选:(1)理论筛选:从千人基因组计划III期数据库中筛出中国北京汉族人群(China Beijing Han,CHB)和中国南方汉族人群(China South Ha n,CHS)中的三等位基因SNP和四等位基因SNP,筛选条件:1)最小等位基因频率(minor allele frequency,MAF)>0.05;2)杂合度(heterozy gosity,Het)>0.65;3)符合哈温平衡;4)与疾病无关;5)相邻两基因座间隔距离大于5M。共筛选出93个多等位SNP基因座。(2)实验筛选:用焦磷酸测序混合池技术检测上述筛选出的多等位基因SNP基因座在100名河北汉族人群中等位基因的频率分布,验证其多等位性及基因频率是否符合标准。共筛选出66个多等位SNP基因座。2. NGS-SNP分型体系的构建:对筛选出的66个多等位SNP基因座采用NGS的分子条形码及单端特异性引物延伸技术合成NGS-SNP分型体系分型试剂。起始DNA模板量为20ng,文库构建完成后对其片段质量检测及浓度定量,将文库等体积混合、稀释和变性后,运用Miseq FGxTM平台的RUO(Research Use Only Run)模式进行测序。应用凯杰官方网站程序处理原始下机数据(h ttp://www.qiagen.com),获得变异位点的数据信息以及下机数据对应的B AM文件。3.NGS-SNP分型体系的法医学应用评估:对分型体系进行准确性、重复性、灵敏度、群体遗传学调查等法医学应用评估,群体遗传学调查样本来源于64个河北汉族健康无关个体。结果:1.多等位SNP基因座的筛选通过以上所列出的筛选条件,共筛选出66个多等位SNPs基因座,分布在21个常染色体,每个染色体不超过5个SNPs基因座。2. NGS-SNP分型体系的实验室评估在对原始数据分析前,我们设定了等位基因覆盖深度的分析阈值为20×;等位基因reads频率阈值设为0.75;64个样本平均测序深度为77955×;基因座的平均Doc为1191×;%Allele和%Noise分别达到93.20%和6.80%;66个基因座Hb平均值为0.726。3. NGS-SNP分型体系的法医学应用评估(1)准确性用焦磷酸测序及Sanger测序对阳性对照样本2800M的NGS分型进行验证,在66个SNP基因座中,其中18个基因座由于引物设计的特异性较差,用焦磷酸测序和Sanger法均不能得到特异性产物,最终共有48个基因座进行了焦磷酸测序或Sanger测序验证。结果表明,NGS与焦磷酸测序或Sanger测序分型结果完全一致。(2)重复性在同一次MiSeq FGxTM上机中对2800M Control DNA的3个同等起始模板量文库进行测序。结果显示,3个文库的基因分型除了在rs72845206和rs71277146基因座存在差异外,其余均一致,经统计学检验,%Allele(P=0.137)和Hb(P=0.647)均无显著差异。(3)灵敏度对系列梯度(10ng、5ng、2ng、1ng、0.5ng、0.25ng)起始模板DNA进行灵敏度测试,随着文库起始模板量降低,杂合性均衡比逐渐降低,变异系数逐渐升高;当DNA起始模板量在2ng及以下时,出现等位基因的插入与缺失,提示本研究中最佳模板量为5ng~10ng。(4)群体遗传学参数对64个河北汉族无关个体样本的62个基因座进行群体遗传学参数分析,经Bonferroni校正(P<0.05/62=0.0008065),有6个基因座不符合Hardy-Weinberg平衡,各基因座处于连锁平衡状态。剔除法医学评估中4个表现性能较差及6个不符合Hardy-Weinberg平衡的基因座,其余56个基因座的累积匹配概率为1.05×10-35,累积二联体非父排除率(Cumulative Probability for Duo Paternity Testing,CPED)值为0.999986;累积三联体非父排除率(Cumulative Probability for Trio Paternity Testing,CPET)值为0.9999999995。结论:本实验筛选了66个多等位基因SNPs,应用NGS技术构建了分型体系,剔除4个表现性能较差的位点(rs201255836、rs71277146、rs72845206、rs648431),该NGS-SNP分型体系中其余62个SNPs基因座具有较好的准确性、重复性和灵敏度。剔除6个不符合Hardy-Weinberg平衡的位点,该NGS-SNP分型体系的56个SNPs基因座在河北汉族人群的累积匹配概率为1.05×10-35,累积三联体非父排除概率为0.9999999995,累积二联体非父排除概率为0.999986,满足法医学个体识别与亲子鉴定的系统效能要求,为法医学个体识别和亲子鉴定的研究提供了新的遗传标记和技术方案。