中华民族全基因组中单核苷酸多态性的初步分析

来源 :河北医科大学 | 被引量 : 0次 | 上传用户:buhao00155
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:单核苷酸多态性,简称SNP,是广泛分布于某一(些)群体、正常个体基因组DNA中的单碱基序列差异,分布频率大于1%,代表了不同个体之间最大的遗传差异。由于分布广泛,具有相当的遗传稳定性,位于基因内部的SNP会直接影响到基因的表达水平或蛋白质的结构,SNP研究逐渐成为生物学、遗传学等诸多领域如复杂性疾病病因研究、药物敏感性研究甚至人类进化史研究的主要工具。尽管国际上对SNP在方法学上的研究日渐深入,公共数据库中SNP的数量也呈指数增长,对于人口集中,地理、自然跨度明显的中国而言,这些数据仍无法提供中国人群中全基因组SNP的信息。为此,本研究采用中国人基因组DNA为材料,采用基因组序列比对的分析方法,首次在全基因组水平构建了中华民族的SNP图谱,对中国人SNP在基因组中的分布情况、SNP分型以及SNP对氨基酸编码的影响进行了初步的分析。方法:取单个汉族个体基因组DNA以及来自不同民族、不同地区的24个个体等量混合基因组DNA分别构建随机文库,随机挑选重组克隆,使用统一的pUC18引物单向测序,得到了SNP筛选所需的随机序列。由于SNP只是基因组内单<WP=4>碱基序列的差异,参与分析序列的准确性成为最重要的因素,因此,一系列严格的序列质量标准必不可少。将测序仪产生的原始数据-吸收峰图文件-进行碱基识别(base calling),转化成碱基序列文件。去除序列两端的载体序列后,再使用RepeatMasker软件进行重复序列的屏蔽。挑选高质量碱基(Q>20)连续大于100bp,非重复序列大于30bp的随机序列与已公布的人类基因组数据库(http://ncbi.nil.nih.gov)进行序列比对。对于存在序列差异的位点,采用NQS(Neighborhood Quality Standard)标准进行判定,即:差异位点的碱基质量大于20,位点两侧各五个碱基的质量大于15,两侧10个碱基至少有9个与数据库中的序列能够完全匹配。另外,如果某条随机序列中SNP的数目超过了6个,则抛弃整条序列。统计不同文库筛选SNP的数量、效率以及类型分布。对于如上方法得到的SNP,截取其两端序列与UCSC数据库的染色体信息库进行比对,以绘制SNP在全基因组中的图谱。为了了解SNP对编码基因的影响,截取SNP位点两侧的序列与人类基因注释库进行序列的同源性比较,以了解SNP在编码区域及非编码区域的分布情况。本研究还进行了所筛选中国人SNP与公共数据库dbSNP之间的比较,找到中国人与dbSNP共有的SNP以及中国人特异性SNP。结果:1.通过对所测118285条随机序列的分析,得到19109个SNP和1214个插入、缺失型序列变异,其中18,001个位点被定位在人类染色体上,除17,12号染色体外,其他常染色体具有相似的SNP分布密度,而这两条染色体SNP低密度可能是由于统计或计算偏移引起,也可能具有生物学意<WP=5>义,还需进一步研究。性染色体SNP的分布密度明显偏低。2.采用单个体及24个个体混合文库进行SNP筛选具有不同的筛选效率,以后者的效率较高,但两种方法得到的SNP不存在类型分布的差别。3.筛选得到的SNP中,16,679个SNPs落在已被注释(annotation)的区域,9,589个SNP位于基因内,并有274个SNP落在基因的外显子区域,其中185个改变了氨基酸的编码顺序。4.筛选所得SNP与dbSNP比较后,7107个(37.19%)是中国人与之所共有的,2,544(13.31%)个是中国人中特有SNP,中国人特异性SNP 与筛选的全部SNP分类构成比上存在着差别,以TC,TG型SNPs的差别最为显著。结论:1. SNP 在常染色体上的分布基本均匀,没有明显的染色体亲向性。尽管存在序列变异的“热点区”及“沙漠区”,这些区域可能是以较短的DNA片断如基因为单位的。由于有效群体数量少于常染色体,性染色体的SNP的分布密度偏低。2. 采用混合个体基因组构建随机文库的SNP筛选效率高于单个体随机文库。3. 不同群体的群体特异性SNP在类型分布方面可能存在差异。
其他文献
在北京孔庙内,至今仍保存着元、明、清三代的198座进士题名碑,上刻有51624位进士的姓名、籍贯和名次。在每座题名碑的旁边,还有一块解释牌,讲述本座题名碑上的科考趣事和状元故事。    饽饽状元  清康熙三十六年丁卯科的状元,是江苏铜山人李蟠。他家境贫寒,进京科考时没有盘缠,便带了30个馒头。每天早中晚,顿顿吃馒头。开考那天,别人都交卷了,他还没答完,急得满头大汗,一直写到四更天。一天三顿吃馒头,
目的:用代谢平衡法和稳定性同位素标记技术研究中国农村代表性膳食中成年男子铁、锌的吸收利用率,以及膳食因素对它们吸收利用的影响,为改善中国居民营养状况,制定和修改膳食
该研究从细胞培养和人群研究两个方面着手,首先从细胞培养实验较为系统地探讨了HSP70的表达特征、规律及其与热或毒物耐受的关系,然后阐明HSP70在人群中的表达水平、表达差异
江苏省海门市为肝癌高发区,肝癌死亡率大于50/10万.为研究环境和遗传因素在海门地区肝癌高发中的作用,该课题在队列研究的基础上,通过出生顺序分析和一般家系分析,初步探讨HC
本文论述了煤矿松软岩层的特点,提出了合理的巷道布置原则和支护措施,并强调了选择应力降低区布置巷道的重要性和采用封闭式支架的必要性,最后提出了研究松软岩层巷道矿山压
【摘要】教师教学知识的发展一直是教育领域中较为重大的课题之一。对于初中数学教师来说,并不是具有强大的教学能力就是一个优秀的教师,还应该具备相应的教学知识,这种教学知识对于教师来说是极为宝贵的,是初中数学教师专业能力的展现,是区别数学教师与数学研究者、数学教师与其他学科教师的重要特征。本文就从初中数学教师教学知识的特性出发,对其发展方向进行展望,找出发展过程当中存在的问题。  【关键词】初中数学 ;
朱德,新中国十大元帅之首,天下无人不知。后来又有人说:这个总司令是个空的。肖克将军回忆井冈山斗争时说,朱德在部队中有很高的威信,部队对朱德带点神秘式的信仰。 1927年八
由鞍钢矿山研究所没计,鞍钢矿山机械制造厂制造的SPZ120型水平钻机,于1992年10月在内蒙古平庄矿务局通过了能源部和冶金部联合组织的技术鉴定。该机采用电动全液压传动,与国
1.注意浅层次项目与高技术规模项目的关系。目前,煤矿第三产业多半是一些为矿区生产和生活服务的浅层次项目,投资少,用人多,风险小,见效快。对于尽快使富余人员得到安置、取
目的:1、探讨MTHFR基因C677T多态性与CNS先天畸形的关系;2、探讨与CNS先天畸形发生有关的环境影响因素及其作用强度;3、探讨MTHFR基因C677T多态性与环境影响因素之间的交互作