关联分析中的统计方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:Ar_meng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关联分析是寻找人类疾病易感基因的主要工具,常用的数据采集方法有病例对照设计、匹配病例对照设计和家系设计。关联分析的一个关键问题是在各种设计下如何提高统计检验的功效。理想条件下,群体中的基因形态处于哈代-温伯格平衡律所刻画的稳定平衡态。对平衡态的偏离,即哈代-温伯格不平衡态,蕴含了变异或与疾病的关联。特别地,等位基因相互作用机制即基因模型的信息可以由偏离哈代-温伯格不平衡律的模式来决定。本论文研究在不同的设计下,如何利用偏离哈代-温伯格平衡律的信息估计基因模型,并由此得到各种稳健和有效的检验方法。关联分析中常用的统计检验方法有两类:一类为不考虑基因模型的卡方检验(比如Pearson卡方检验)方法;另一类为考虑基因模型的趋势检验(如Cochran-Armitage趋势检验)方法。前者不依赖于基因模型指定,因而比较稳健,但由于忽略了基因模型,其检验功效可能会有部分损失;后者是针对特定的基因模型而设计的检验,在基因模型指定正确的条件下具有最大的功效。但是,由于对复杂疾病的认识有限,在实际应用中真正的基因模型通常无法精确确定,所以在这种情况下使用错误基因模型所对应的趋势检验反而会导致功效的损失。结合两者优势的检验称为稳健有效型检验,其中,MAX检验和基因模型选择是普遍采用的两种稳健方法,对于一般的病例对照数据有了广泛的研究。但是对于其它重要抽样设计,如何估计基因模型还缺乏研究。比如匹配病例对照数据中的模型选择、家系数据中的模型选择问题以及全基因组关联分析两步设计中的基因模型选择等。本文针对以上三种特定的抽样设计研究模型选择的问题,并研究相关的稳健检验方法。病例对照设计的一个主要缺陷是混杂因素会引起统计推断的偏差,匹配设计和家系设计是控制混杂因素的两个常用方法。对于这两种设计,文献中已有关于MAX检验的相关讨论,但是基于基因模型选择的稳健方法则尚无相关研究。模型估计的难点在于数据分层结构的处理,传统的针对于病例对照设计的哈代-温伯格不平衡检验不再适用,需要构造新的检验方法估计基因模型。对于匹配的病例对照设计,本文基于列联表的行、列边际构造哈代-温伯格不平衡检验并构造了稳健检验;对于家系设计,我们从条件似然函数的计分检验导出哈代-温伯格不平衡检验,并用于估计基因模型和构造稳健检验。理论证明、计算机模拟和实际数据分析均表明,我们所提出的模型选择方法对于基因模型有较高的正确判别率,并且基于模型选择的趋势检验在诸多现存的稳健方法中具有最大的稳健有效性。全基因组关联分析中的两步设计是一种广为采用的设计方法,其目的是为了提高检验的效率和减少实验费用。我们研究的两步设计中,第一步利用DNA混合技术对全基因扫描的几十万个单核苷酸多态体(SNP)进行初步筛选,通过筛选的SNP进入第二步,实施基于模型选择的关联分析。在分析方法上,我们使用联合分析方法将所有的样本信息综合考虑得出关联性结论。模拟试验结果表明,即使基因测量存在合理的误差,DNA混合技术可以在不降低检验功效的前提下大量节约基因检测的成本,而联合分析方法结合两个阶段数据进行分析,可以提高关联分析的功效。因此对于全基因组关联分析,我们提出的方法是一个成本有效的检验方法,具有广泛的应用价值。最后,我们研究了直接将Pearson卡方检验和Cochran-Armitage趋势检验结合的MIN2方法,并将该方法推广到具有多重排序的列联表中。我们不仅从理论上推导了零假设下MIN2和它的p值的渐近分布,还研究了它们的理论性质,对于实际应用具有理论指导意义。模拟试验和实例分析证实了所提方法不仅适合于回溯型(retrospective)的病例对照数据,也适用于前瞻型(prospective)数据和截面数据(cross-sectional)。更重要的是MIN2不仅具有稳健有效性,还能检测出其它检验统计量所不能检测到的关联性。总之,MIN2简单易操作,不仅适用于基因数据分析也适用于一般的具有多重排序的列联表数据分析。
其他文献
植物内生菌是具有高度多样性的微生物资源,代谢产物多种多样,包括杀虫、抗菌、抗肿瘤等活性物质,是目前人们寻找新型抗菌、抗肿瘤天然药物的重要资源。本研究利用上海来益生
近年来,国内外上市公司上发生了一系列会计造假事件,会计信息失真问题严重干扰着我国上市公司和证券市场的正常发展,并已成为困扰我国会计界的难题。这一问题的解决在很大程
傅斯年为传统史学寻找新材料、新方法和保护本国历史文化,组织成立了诸如历史语言研究所考古组等机构,推动考古工作的进行,培养考古学人才,并形成了关于考古学实践和研究的理
肉芽肿性皮肤松弛症(granulomatous slack skin,GSS)是皮肤T细胞淋巴瘤中低度恶性的一型,临床罕见,现报道1例。临床资料患者,女,58岁。主因右臀部结节、斑块10余年,局部破溃
基本国策应是基本国情决定的某类具有全局性、长期性、战略性意义的问题的系统对策。但现阶段我国的这类政策从命名标准到实施机制都缺少制度性规定,导致基本国策存在名称被
通过调查,利用全国各铜矿山历年的铜精矿产量、选矿比等相关数据,对全国和各省(区)的铜尾矿总量进行了分析统计,并对各省(区)的铜尾矿资源进行了聚类分析,为我国铜尾矿资源的开发管理
品牌危机是企业在发展过程中经常遭遇的难题之一。本文从品牌的概念出发,认为品牌是企业过去行为对消费者影响的结果,从而引出了“正品牌”和“负品牌”的概念;本文分析了企
无线传感器网络(Wireless Sensor Network,WSN)是由集成传感、运算和无线通信能力的嵌入式节点组成的自组织动态网络。早在1999年,美国的《商业周刊》就将“网络化的微型传感
混凝土自锚式悬索桥,造型美观,造价适宜,特别适合城市桥梁,近年来随着跨度的进一步增大,混凝土自锚式悬索桥的抗震要求也更加突出,因此系统地研究其动力特性和地震响应显得十
本文以日本侵略者操纵成立的思想教化团体协和会为研究对象,全面考察了思想教化团体协和会成立的历史背景、产生过程和改组扩张的经过以及协和会附属的一些团体的活动情况,并