论文部分内容阅读
关联分析是寻找人类疾病易感基因的主要工具,常用的数据采集方法有病例对照设计、匹配病例对照设计和家系设计。关联分析的一个关键问题是在各种设计下如何提高统计检验的功效。理想条件下,群体中的基因形态处于哈代-温伯格平衡律所刻画的稳定平衡态。对平衡态的偏离,即哈代-温伯格不平衡态,蕴含了变异或与疾病的关联。特别地,等位基因相互作用机制即基因模型的信息可以由偏离哈代-温伯格不平衡律的模式来决定。本论文研究在不同的设计下,如何利用偏离哈代-温伯格平衡律的信息估计基因模型,并由此得到各种稳健和有效的检验方法。关联分析中常用的统计检验方法有两类:一类为不考虑基因模型的卡方检验(比如Pearson卡方检验)方法;另一类为考虑基因模型的趋势检验(如Cochran-Armitage趋势检验)方法。前者不依赖于基因模型指定,因而比较稳健,但由于忽略了基因模型,其检验功效可能会有部分损失;后者是针对特定的基因模型而设计的检验,在基因模型指定正确的条件下具有最大的功效。但是,由于对复杂疾病的认识有限,在实际应用中真正的基因模型通常无法精确确定,所以在这种情况下使用错误基因模型所对应的趋势检验反而会导致功效的损失。结合两者优势的检验称为稳健有效型检验,其中,MAX检验和基因模型选择是普遍采用的两种稳健方法,对于一般的病例对照数据有了广泛的研究。但是对于其它重要抽样设计,如何估计基因模型还缺乏研究。比如匹配病例对照数据中的模型选择、家系数据中的模型选择问题以及全基因组关联分析两步设计中的基因模型选择等。本文针对以上三种特定的抽样设计研究模型选择的问题,并研究相关的稳健检验方法。病例对照设计的一个主要缺陷是混杂因素会引起统计推断的偏差,匹配设计和家系设计是控制混杂因素的两个常用方法。对于这两种设计,文献中已有关于MAX检验的相关讨论,但是基于基因模型选择的稳健方法则尚无相关研究。模型估计的难点在于数据分层结构的处理,传统的针对于病例对照设计的哈代-温伯格不平衡检验不再适用,需要构造新的检验方法估计基因模型。对于匹配的病例对照设计,本文基于列联表的行、列边际构造哈代-温伯格不平衡检验并构造了稳健检验;对于家系设计,我们从条件似然函数的计分检验导出哈代-温伯格不平衡检验,并用于估计基因模型和构造稳健检验。理论证明、计算机模拟和实际数据分析均表明,我们所提出的模型选择方法对于基因模型有较高的正确判别率,并且基于模型选择的趋势检验在诸多现存的稳健方法中具有最大的稳健有效性。全基因组关联分析中的两步设计是一种广为采用的设计方法,其目的是为了提高检验的效率和减少实验费用。我们研究的两步设计中,第一步利用DNA混合技术对全基因扫描的几十万个单核苷酸多态体(SNP)进行初步筛选,通过筛选的SNP进入第二步,实施基于模型选择的关联分析。在分析方法上,我们使用联合分析方法将所有的样本信息综合考虑得出关联性结论。模拟试验结果表明,即使基因测量存在合理的误差,DNA混合技术可以在不降低检验功效的前提下大量节约基因检测的成本,而联合分析方法结合两个阶段数据进行分析,可以提高关联分析的功效。因此对于全基因组关联分析,我们提出的方法是一个成本有效的检验方法,具有广泛的应用价值。最后,我们研究了直接将Pearson卡方检验和Cochran-Armitage趋势检验结合的MIN2方法,并将该方法推广到具有多重排序的列联表中。我们不仅从理论上推导了零假设下MIN2和它的p值的渐近分布,还研究了它们的理论性质,对于实际应用具有理论指导意义。模拟试验和实例分析证实了所提方法不仅适合于回溯型(retrospective)的病例对照数据,也适用于前瞻型(prospective)数据和截面数据(cross-sectional)。更重要的是MIN2不仅具有稳健有效性,还能检测出其它检验统计量所不能检测到的关联性。总之,MIN2简单易操作,不仅适用于基因数据分析也适用于一般的具有多重排序的列联表数据分析。