论文部分内容阅读
目的:微单倍型(microhaplotype,MH)是近年研究发现的新型遗传标记,位于非重组热区,是指200bp范围内2-5个单核苷酸多态性(single nucleotide polymorphism,SNP)位点的组合,兼具短串联重复(short tandem repeats,STR)和SNP的优点,如片段短、突变率低、多态性良好、含有祖先信息等,且无二者的缺点如STR的stutter峰、SNP无法用于混合检材等,是具有极大潜力的法医学遗传标记。目前对其的研究尚处于起步阶段,本课题拟筛选适合中国人群的微单倍型基因座,应用下一代测序技术(next generation sequencing,NGS)构建检测体系,评估体系的法医学应用价值,为法医学个体识别和亲缘鉴定提供新的遗传标记及技术方案。方法:从千人基因组数据库筛选出在汉族人群中杂合度大于0.4的SNP位点,以位于非重组热区、200bp内有2-5个SNP作为标准筛选微单倍型基因座。以筛选出的基因座为核心内容,构建微单倍型数据库网站。并且从筛选出的基因座中选择12个位于常染色体、杂合度大于0.7、等位基因频率均衡的基因座构建二代测序复合体系。提取河北汉族人群外周血DNA,用QIA Targeted DNA Custom Panel构建文库,主要包括5个步骤:基因组DNA片段化、末端修饰;连接DNA接头并纯化;靶向富集并纯化;常规PCR及PCR产物清洗;文库定量。将文库等体积混合、稀释和变性后,在MiSeq FGx平台进行测序。用BWA等计算机程序处理原始数据,获得基因分型结果,评估体系。并且用同一样本分别构建的3个文库进行重复性研究;用同一样本以20 ng、10 ng、5 ng、2.5 ng、1.25 ng的DNA模版起始量进行灵敏度研究。用无关个体的分型数据调查河北汉族人群的群体遗传学数据,为该体系的应用提供基础。用检测的家系样本计算亲权指数,进行实际案例应用。结果:1.微单倍型的命名我们提出了一种微单倍型的命名方法,由五个部分组成。以mh02-174285354/400/461为例,“mh”为微单倍型简称以区分不同遗传标记,“02”为该基因座位于2号染色体上,“174285354”为基因座第一个SNP在染色体上的位置,“672/733”分别表示第二个和第三个SNP染色体位置的后几位数字。2.测序数据的实验室评价54个被测样本的覆盖深度都在500×以上,最高为2198×,最低为518×,所有样本的平均DoC为1391×。在对测序结果分析前,我们设定了分析阈值,判定reads数大于总reads数20%的序列为有效序列,低于总reads数20%的序列为无效序列。结果显示,所有基因座的有效reads数均大于总reads数的80%。在此基础上,对54个样本的12个基因座的测序数据进行质量分析。基因座的平均覆盖度结果显示,每个基因座的平均覆盖度都在600×以上,12个基因座的平均覆盖度为1379±1218×(mean±2SD),最低覆盖度为628×,其中2个基因座覆盖度大于mean±2SD。基因座序列组分构成比(%allele、%noise)结果显示,%allele最低为84.11%,最高为98.96%。所有基因座平均%allele为93.98%,除3个基因座外,其余基因座%allele均大于90%;基因座%noise最低为1.04%,最高为15.89%,所有基因座平均%noise为6.0%。杂合性均衡比最低为0.683±0.250,最高为0.876±0.160,所有基因座的平均Hb为0.738±0.06。在12个基因座中,两个基因座的平均杂合性均衡比在0.60.7之间,其余10个基因座的平均杂合性均衡比均大于0.7。3.重复性研究使用同一样本构建的3个文库测序结果显示,3次重复测序的等位基因分型结果一致。每个文库3次重复%allele(P=0.43)和ACR(P=0.56)均无显著性差异。4.灵敏度研究当DNA模版量为20 ng、10 ng、5 ng时,测序数据均无显著性,随着起始模版量的降低,ACR呈下降趋势,变异系数CV值呈上升趋势,基因座等位基因间不均衡性增强。当DNA模版量为1.25 ng时,3个基因座出现等位基因丢失。5.法医学参数该体系包括12个微单倍型基因座,每个基因座包含24个SNP位点。在46个无关个体中,各基因座分别检测出314种等位基因。总体上,随着SNP位点数量的增多,等位基因数量呈增长趋势。对46个无关个体分型数据进行群体遗传学参数分析,经Bonferroni校正,所有基因座的等位基因频率分布均符合Hardy-Weinberg平衡,各基因座均呈连锁平衡状态。12个基因座的Ho为0.5000.935,平均为0.789,He范围为0.5050.858,平均为0.758,10个基因座的Ho大于0.7,具有高度遗传多态性;PIC范围为0.3750.835,平均值为0.705;DP为0.5250.964,8个基因座的DP大于0.9,12个基因座的TDP为0.999999999999811;PEduo值为0.1250.550,CPEduo为0.99755;PEtrio值为0.1870.712,CPEtrio为0.99995。在12个基因座中,10个基因座Ae值大于3.0,5个基因座Ae值大于5.0,2个基因座Ae值大于6.0。用4个Ae>5.0的基因座检测样本时,理论上有99.84%的可能性检测出该样本为两样本混合物。6.实际案例应用应用构建的微单倍型分型体系检测两个家系样本。结果显示,父(母)-子中至少有一个相同的等位基因,没有发生突变或重组。12个基因座三联体CPE为0.99995,系统效能满足鉴定标准,在7个三联体家系中,累积父权指(combined paternity index,CPI)平均值为12741,最大值为54477.9784,最小值为1472.2114,两个家系CPI大于10000,达到认定标准,其余家系CPI均在0.000110000之间。在家系的二级亲缘关系中计算了祖孙/叔侄关系对的累积祖孙指数CGI。在无亲本参考条件下,9对祖孙/叔侄CGI范围为0.11817.072,平均值为5.804;9对无关个体的CGI范围为0.0300.882,平均值为0.415,其中有2对祖孙/叔侄的CGI落在无关个体范围内。在生母做参考样本条件下,9对祖孙/叔侄的CGI范围为0.05184.048,平均值为17.579,9对无关个体CGI范围为0.0080.407,平均值为0.158,仅1对祖孙与无关个体CGI范围有交叉。7.微单倍型数据库建设我们从千人基因组数据中CHB和CHS的22条常染色体上的SNP进行筛选,按照预设条件共筛选出245479个微单倍型基因座,使用PHASE估算基因座单倍型、单倍型频率及杂合度。以筛选出的数据为核心内容,建立了适用于中国人群的微单倍型数据库网站:MPHDatabase 1.0(http://www.ehbio.com/MPH/),实现微单倍型数据的共享与搜索。结论:筛选出在中国汉族人群中具有较高多态性和良好均衡性的245479个微单倍型基因座,建立中国汉族人群微单倍型数据库;构建了12个微单倍型基因座的NGS分型体系和分析方法,分型体系具有较好的灵敏度和重复性,获得了该12个基因座在河北汉族人群的群体遗传学数据,为法医学应用奠定基础。