论文部分内容阅读
背景和目的人类Y染色体的很大一部分,即非重组Y染色体部分(Non-recombinant Y chromosome NRY),遵从严格的父系遗传。由于在减数分裂过程中Y染色体该部分没有重新组合,因此可以确定所有人类NRY变体的等级血统顺序并推断它们在系统发育树中血统的顺序和时间。然而在父子遗传信息一代代的传递过程中,Y染色体也在渐渐地积累着一些变化——遗传突变。正是因为遗传突变积累的存在,使得人类父系遗传的体系中,相距越远的两个个体Y染色体差异越大;正是这些遗传突变的积累,形成了Y染色体遗传标记。Y染色体上的遗传标记有很多,主要有微卫星DNA、小卫星DNA、卫星DNA、插入与缺失、单核苷酸多态性五类。目前在法医学研究中以及实际检案中最常用到的是微卫星DNA和单核苷酸多态性,即Y-STR和Y-SNP。并且,随着下一代测序(Next generation sequencing NGS)的快速发展,以及测序成本的降低,未来几年将有大量人类基因组数据可供使用。这些数据可用于优化和提高Y染色体系统发育树的分辨率。但是NGS产生的数据量急剧增加,并且产生的数据格式较为复杂,对法医学实践中需要提取某一位点信息的需求形成严峻挑战。为了有效地分析和阐释Y染色体NGS数据,本实验通过对STRait Razor v3、AMY-tree及Y-leaf三个软件来解析全基因组DNA二代测序结果数据,以比较各软件的效力,能够为从二代测序结果中Y-STR信息和提取高分辨率Y-SNP单倍群提供方法参考,并能为法医物证工作中应用二代测序技术获取Y-DNA遗传标记提供帮助。方法1.采用上海莱枫公司2ml血液基因组DNA提取试剂盒提取一名河南汉族男性外周血基因组DNA。2.以二代测序仪BGISEQ-500对该例样品进行全基因组DNA重测序。3.提取二代测序结果中的Y-STR信息:使用STRait Razor v3软件包。在Windows操作系统上,从https://github.com/Ahhgust/STRaitRazor页面下载并安装STRait Razor v3软件包。把二代测序结果.fastq文件通过该软件解读出.fastq文件中所包含的Y染色体STR等信息。4.提取二代测序结果中的特异性Y-SNP信息:使用AMY-tree软件;并以之判断该样品在Y单倍群进化树(International Society of Genetic Genealogy,ISOGG,http://www.isogg.org/tree)中的分支归属。从bio.kuleuven.be/eeb/lbeg下载并安装AMY-tree软件在Windows操作系统上。将全基因组DNA重测序结果中的Y染色体突变列表按照AMY-tree软件要求格式修改成输入文件,对软件所需其他支持文件下载并输入,运行程序,得出样本所属ISOGG单倍群分支以及最新潜在Y-SNP等信息。5.提取测序结果中的特异性Y-SNP信息:使用Y-leaf软件;并以之判断该样品在Y单倍群进化树(International Society of Genetic Genealogy,ISOGG)中的分支归属。在https://www6.erasmusmc.nl/genetic_identification/resources/Yleaf/下载Y-leaf软件,在Linux操作系统上,根据y-leaf软件的README文件进行安装。提前安装好Python、wget、Libcurl、readline、R、samtools等基础支持软件包。然后在郑州大学超算中心上运行y_leaf来分析二代测序结果bam或fastq文件,解读其中的Y-SNPs及其单倍群。6.以Yfiler试剂盒对该样品进行检测;对该样品进行M117分型,以验证提取的遗传标记信息。7.以STRAIT Razor v3识别出的Y-STR个数,与Yfiler试剂盒检测出的Y-STR个数相比,求出全基因组测序50×背景下的Y-STR检出率;以AMY-tree识别出Y单倍群进化树SNP个数除以输入该软件的Y-SNPs总数,求其Y-SNP识别率;以Yleaf识别出Y单倍群进化树SNP个数除以输入该软件的Y-SNPs总数,求其Y-SNP识别率。并以卡方检验比较AMY-tree与Yleaf从全基因组数据中提取Y-DNA遗传标记信息的效力。结果1.全基因组重测序得到3429964个SNP,其中98.77%出现在dbSNP数据库里,其中96.98%在千人基因组计划(the 1000 Genomes Project)的数据库中。在全基因组中新发现的SNP共32050个。Y染色体上得到2825个SNP。2.STRait Razor v3软件包的Powerseq.config组件分析的STR位点和性别信息结果显示,获得48742条性别信息(Amelogenin基因)和236条STRs分型结果,其中Y-STR信息49条(常染STR187条)。软件读出的6个Y-STR及其判型结果与Yfiler试剂盒检测结果基本一致。3.AMY-tree解析结果为单倍群为O2a2c2c*[O-Page23*],比起该样品的电泳检测结果(M117衍生型,指示该样品属于单倍群进化树分支O2a2b1a1)不完全一致。这是因为AMY-tree的数据库还是2014年数据,没能及时更新的原因。4.Yleaf输出结果为在Y染色体上共比对出41392个Y-SNPs,共有908个Y-SNPs是衍生型,指示出该样品属于O2a2b1a1a1a1a分支,比起该样品的电泳检测结果(M117衍生型,指示该样品属于单倍群进化树分支O2a2b1a1)更为具体。5.在全基因组测序50×所产生的数据中,用STRAIT Razor v3、AMY-tree及Y-leaf提取相关Y-DNA遗传标记信息时的检出率/识别率分别为35%、73%及99%。AMY-tree及Yleaf对Y-SNPs的识别效力有显著性差异,以Yleaf更为准确。结论1.STRait Razor v3软件包直接从全基因组测序结果中提取出相关Y-STR甚至常染色体STR信息。且其工作平台可为Windows操作系统,安装简便,运行可靠,可供目前的法医DNA实验室常规使用。2.Y-leaf是一种适用于从所有类型的Y染色体NGS数据进行准确、高分辨率的单倍群推断的软件。3.基于下一代测序的STR分型在现有数据输出方式基础上,对STR基因座进行全解析度分型,进一步关注STR内部的序列多态性,显著提升STR基因座的个体识别能力。基于NGS技术进行STR分型的技术路线是可行的。4.比较各软件的效力,能够为从二代测序结果中提取Y-STR信息和提高Y-SNP单倍群分辨率提供方法参考,为法医物证工作中应用二代测序技术获取Y-DNA遗传标记提供帮助。5.常规全基因组测序结果难以足额提供法医DNA遗传标记,出于法医应用目的的二代测序技术应该有别于常规的全基因组测序或全外显子测序等技术。