关联分析中的统计方法研究:基因模型选择及稳健检验

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:neverer123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联分析是寻找人类疾病易感基因的主要工具,常用的数据采集方法有病例对照设计、匹配病例对照设计和家系设计。关联分析的一个关键问题是在各种设计下如何提高统计检验的功效。理想条件下,群体中的基因形态处于哈代-温伯格平衡律所刻画的稳定平衡态。对平衡态的偏离,即哈代-温伯格不平衡态,蕴含了变异或与疾病的关联。特别地,等位基因相互作用机制即基因模型的信息可以由偏离哈代-温伯格不平衡律的模式来决定。本论文研究在不同的设计下,如何利用偏离哈代-温伯格平衡律的信息估计基因模型,并由此得到各种稳健和有效的检验方法。 关联分析中常用的统计检验方法有两类:一类为不考虑基因模型的卡方检验(比如Pearson卡方检验)方法;另一类为考虑基因模型的趋势检验(如Cochran-Armitage趋势检验)方法。前者不依赖于基因模型指定,因而比较稳健,但由于忽略了基因模型,其检验功效可能会有部分损失;后者是针对特定的基因模型而设计的检验,在基因模型指定正确的条件下具有最大的功效。但是,由于对复杂疾病的认识有限,在实际应用中真正的基因模型通常无法精确确定,所以在这种情况下使用错误基因模型所对应的趋势检验反而会导致功效的损失。结合两者优势的检验称为稳健有效型检验,其中,MAX检验和基因模型选择是普遍采用的两种稳健方法,对于一般的病例对照数据有了广泛的研究。但是对于其它重要抽样设计,如何估计基因模型还缺乏研究。比如匹配病例对照数据中的模型选择、家系数据中的模型选择问题以及全基因组关联分析两步设计中的基因模型选择等。本文针对以上三种特定的抽样设计研究模型选择的问题,并研究相关的稳健检验方法。 病例对照设计的一个主要缺陷是混杂因素会引起统计推断的偏差,匹配设计和家系设计是控制混杂因素的两个常用方法。对于这两种设计,文献中已有关于MAX检验的相关讨论,但是基于基因模型选择的稳健方法则尚无相关研究。模型估计的难点在于数据分层结构的处理,传统的针对于病例对照设计的哈代-温伯格不平衡检验不再适用,需要构造新的检验方法估计基因模型。对于匹配的病例对照设计,本文基于列联表的行、列边际构造哈代-温伯格不平衡检验并构造了稳健检验;对于家系设计,我们从条件似然函数的计分检验导出哈代-温伯格不平衡检验,并用于估计基因模型和构造稳健检验。理论证明、计算机模拟和实际数据分析均表明,我们所提出的模型选择方法对于基因模型有较高的正确判别率,并且基于模型选择的趋势检验在诸多现存的稳健方法中具有最大的稳健有效性。 全基因组关联分析中的两步设计是一种广为采用的设计方法,其目的是为了提高检验的效率和减少实验费用。我们研究的两步设计中,第一步利用DNA混合技术对全基因扫描的几十万个单核苷酸多态体(SNP)进行初步筛选,通过筛选的SNP进入第二步,实施基于模型选择的关联分析。在分析方法上,我们使用联合分析方法将所有的样本信息综合考虑得出关联性结论。模拟试验结果表明,即使基因测量存在合理的误差,DNA混合技术可以在不降低检验功效的前提下大量节约基因检测的成本,而联合分析方法结合两个阶段数据进行分析,可以提高关联分析的功效。因此对于全基因组关联分析,我们提出的方法是一个成本有效的检验方法,具有广泛的应用价值。 最后,我们研究了直接将Pearson卡方检验和Cochran-Armitage趋势检验结合的MIN2方法,并将该方法推广到具有多重排序的列联表中。我们不仅从理论上推导了零假设下MIN2和它的p值的渐近分布,还研究了它们的理论性质,对于实际应用具有理论指导意义。模拟试验和实例分析证实了所提方法不仅适合于回溯型(retrospective)的病例对照数据,也适用于前瞻型(prospective)数据和截面数据(cross-sectional)。更重要的是MIN2不仅具有稳健有效性,还能检测出其它检验统计量所不能检测到的关联性。总之,MIN2简单易操作,不仅适用于基因数据分析也适用于一般的具有多重排序的列联表数据分析。
其他文献
随着图论在现实生活的广泛应用,许多学者对图论进行了大量的研究。从而出现了超图、元图等概念,并且对其结构及应用做了深入的探讨,近些年来取得了许多成果。与此同时出现了一系
本文主要研究Hom-quadri-代数和Hom-octo-代数的结构和性质,它们分别是由quadri-代数和octo-代数通过代数形变得出的.本文还给出了Hom-quadri-代数和Hom-octo-代数与Hom-结合
本文主要研究在扩散模型下,带有固定交易费用的分红和注资问题。由于考虑了固定的交易费用,此问题就变成了一个脉冲控制问题。   最终目的是最大化期望折现分红减去注资的值
树模型的出现和发展具有重大的实际意义,它为物理学、生物学和管理科学等多个学科提供了强有力的研究工具。树指标随机过程已成为近年来发展起来的概率论的研究方向之一。在概
期权作为最重要的金融衍生工具之一,在防范和规避投资风险中起着巨大作用。如何通过合理的数学模型来确定期权的价格是期权研究中的关键问题之一。为了与金融市场实际情况更好
带有自由面的渗流问题是近年来工程地下水重点研究的问题之一。在以往的研究过程中所使用的方法主要是有限元法,其一是移动网格法,其二是固定网格法。两种方法虽取得有效的结果
本文给出了求解非线性方程组的一个新的算法,首先将非线性方程组转化为一个非线性规划,再使用一个不使用罚函数和滤技术的算法求解这个非线性规划,在Jacobi矩阵一致列满秩的条件
随着社会的发展,社会各个方面对快速有效的身份验证的要求日益迫切。   由于生物特征是人的内在属性,具有很强的自身稳定性和个体差异性,因此是身份验证的理想依据。其中利用