论文部分内容阅读
背景:定位与各种性状和疾病相关的基因是人类遗传研究中最重要的任务之一。对于受遗传和环境因素共同决定的复杂疾病和数量性状,采用传统的连锁分析和数量性状位点(quantitative trait locus,QTL)定位可以确定包含一个性状位点的约10厘摩(cM)的基因组区域。但这对基因的物理作图远远不够,除非进一步精细定位将这个较大的基因组区域缩小到更小。随着遗传领域中快速增长的单核苷酸多态性(singlenucleotide polymorphism,SNP)和详细的人类单体型数据的获得,群体水平上的连锁不平衡(linkage disequilibrium,LD)定位或关联研究被广泛用来精细定位人类复杂性状位点。一个简单的不平衡定位方法的关键是选取一个好的不平衡指数,因为一个优良的不平衡指数能有效的度量性状基因与它紧密相连的遗传标记之间的连锁不平衡程度,它的大小直接反应了遗传标记与性状基因的距离。常用连锁不平衡指数是基于比较受累个体和非受累个体(或选择样本)之间的标记基因或单体型频率的病例-对照分析。但这种方法并不是一致最有效的。而增大样本中标记基因或单体型频率的差有可能提高基因定位的统计功效。申农(Shannon)熵,一个频率的非线性函数,可以增大基因频率的差。已有研究潜在假定遗传数据不存在基因型错误,但在实际的研究中可能存在遗传数据的错误,而遗传数据的错误可能对连锁不平衡指数产生严重的影响。目的:基于熵理论,提出两个新的利用高度稠密的分子标记精细定位人类复杂性状位点的不平衡指数l和lx;同时研究基因型错误对指数lx和l的影响。方法:从理论分析和计算机模拟的角度考察两个指数的性质,将它们与常用的LD指数进行比较;在一个随机的误差模型假定下从理论分析的角度研究基因型错误对指数lx和l影响。结果:指数l用来精细定位复杂疾病位点,使用病例-对照样本和稠密标记,比较了标记熵与标记条件熵之间的差异。指数lx使用极端群体样本和高稠密标记图谱精细定位数量性状位点,比较了由高极端群体样本和低极端群体样本构成的混合群体中的标记熵与标记条件熵之间的差异。当存在基因型错误时,两个指数由于依赖于基因型错误率因而值变小了。结论:指数l和lx能直接反映标记基因和性状基因之间的连锁不平衡程度。在原始代性状相关基因首次出现于被研究群体时性状相关基因与标记基因之间完全关联,性状基因与标记基因没有发生新的突变,和被研究群体很大的三个假定下,指数l和lx是遗传图距的递减函数,而且不依赖于标记基因频率。通过与常用连锁不平衡指数pexcess的比较分析,发现分别用l和lx定位复杂疾病位点和数量性状位点的灵敏度比用pexcess时的灵敏度高。同时,我们也调查了初始不完全关联和基因突变对两个指数的影响,发现l和lx受初始不完全关联和基因突变的影响比较小,在突变率比较低时,l和lx仍然适用于精细定位。在各种参数选择下通过计算机模拟考察l和lx的性质,发现两个指数都能以较高(80%)的功效定位性状位点。lx和l由于依赖于基因型错误率因而值变小,改变率随着标记基因频率的增大而增大;当基因型错误率较低(0.01)而标记基因频率不是特别大(<0.9)时,lx和l的改变率在10%以下;当基因型错误率较高(0.03,0.05),改变率超过10%,在性状相关基因的频率很小(如0.10)而标记基因频率特别大(0.9)时,改变率达到50%甚至以上。基因型错误的影响也通过基于血管紧张肽转化酶(ACE)基因的10个SNPs单体型频率的模拟研究得到了证实。在遗传分析中建议避免或尽可能地降低误差的出现。