论文部分内容阅读
目的:单核苷酸多态性,简称SNP,是广泛分布于某一(些)群体、正常个体基因组DNA中的单碱基序列差异,分布频率大于1%,代表了不同个体之间最大的遗传差异。由于分布广泛,具有相当的遗传稳定性,位于基因内部的SNP会直接影响到基因的表达水平或蛋白质的结构,SNP研究逐渐成为生物学、遗传学等诸多领域如复杂性疾病病因研究、药物敏感性研究甚至人类进化史研究的主要工具。尽管国际上对SNP在方法学上的研究日渐深入,公共数据库中SNP的数量也呈指数增长,对于人口集中,地理、自然跨度明显的中国而言,这些数据仍无法提供中国人群中全基因组SNP的信息。为此,本研究采用中国人基因组DNA为材料,采用基因组序列比对的分析方法,首次在全基因组水平构建了中华民族的SNP图谱,对中国人SNP在基因组中的分布情况、SNP分型以及SNP对氨基酸编码的影响进行了初步的分析。方法:取单个汉族个体基因组DNA以及来自不同民族、不同地区的24个个体等量混合基因组DNA分别构建随机文库,随机挑选重组克隆,使用统一的pUC18引物单向测序,得到了SNP筛选所需的随机序列。由于SNP只是基因组内单<WP=4>碱基序列的差异,参与分析序列的准确性成为最重要的因素,因此,一系列严格的序列质量标准必不可少。将测序仪产生的原始数据-吸收峰图文件-进行碱基识别(base calling),转化成碱基序列文件。去除序列两端的载体序列后,再使用RepeatMasker软件进行重复序列的屏蔽。挑选高质量碱基(Q>20)连续大于100bp,非重复序列大于30bp的随机序列与已公布的人类基因组数据库(http://ncbi.nil.nih.gov)进行序列比对。对于存在序列差异的位点,采用NQS(Neighborhood Quality Standard)标准进行判定,即:差异位点的碱基质量大于20,位点两侧各五个碱基的质量大于15,两侧10个碱基至少有9个与数据库中的序列能够完全匹配。另外,如果某条随机序列中SNP的数目超过了6个,则抛弃整条序列。统计不同文库筛选SNP的数量、效率以及类型分布。对于如上方法得到的SNP,截取其两端序列与UCSC数据库的染色体信息库进行比对,以绘制SNP在全基因组中的图谱。为了了解SNP对编码基因的影响,截取SNP位点两侧的序列与人类基因注释库进行序列的同源性比较,以了解SNP在编码区域及非编码区域的分布情况。本研究还进行了所筛选中国人SNP与公共数据库dbSNP之间的比较,找到中国人与dbSNP共有的SNP以及中国人特异性SNP。结果:1.通过对所测118285条随机序列的分析,得到19109个SNP和1214个插入、缺失型序列变异,其中18,001个位点被定位在人类染色体上,除17,12号染色体外,其他常染色体具有相似的SNP分布密度,而这两条染色体SNP低密度可能是由于统计或计算偏移引起,也可能具有生物学意<WP=5>义,还需进一步研究。性染色体SNP的分布密度明显偏低。2.采用单个体及24个个体混合文库进行SNP筛选具有不同的筛选效率,以后者的效率较高,但两种方法得到的SNP不存在类型分布的差别。3.筛选得到的SNP中,16,679个SNPs落在已被注释(annotation)的区域,9,589个SNP位于基因内,并有274个SNP落在基因的外显子区域,其中185个改变了氨基酸的编码顺序。4.筛选所得SNP与dbSNP比较后,7107个(37.19%)是中国人与之所共有的,2,544(13.31%)个是中国人中特有SNP,中国人特异性SNP 与筛选的全部SNP分类构成比上存在着差别,以TC,TG型SNPs的差别最为显著。结论:1. SNP 在常染色体上的分布基本均匀,没有明显的染色体亲向性。尽管存在序列变异的“热点区”及“沙漠区”,这些区域可能是以较短的DNA片断如基因为单位的。由于有效群体数量少于常染色体,性染色体的SNP的分布密度偏低。2. 采用混合个体基因组构建随机文库的SNP筛选效率高于单个体随机文库。3. 不同群体的群体特异性SNP在类型分布方面可能存在差异。