全基因组单核苷酸多态性交互作用识别方法研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:tcliany
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全基因组关联研究(GWAS)已广泛应用于人类疾病的遗传机制研究中,然而目前GWAS识别出的单个的与疾病相关的单核苷酸多态性(Single nucleotide polymorphism,SNP)位点仅能解释复杂疾病的部分遗传特性。大量研究表明SNP交互作用可能是“丢失的遗传性”的主要成因。为了进一步加深对复杂疾病遗传机理的了解,研究者在SNP交互作用识别问题上展开了较为深入的研究,面向无关人群和家系人群两类不同数据,提出了大量SNP交互作用识别方法。然而现有方法仍旧面临计算复杂度较高、难以识别高阶SNP交互作用、容易受强边际效应影响等问题。因此,本文针对现有方法存在的不足,面向全基因组SNP交互作用识别问题展开较为深入的理论分析和方法研究,主要研究内容包括以下两个方面:(1)基于病例对照组(case-control)的高阶SNP交互作用识别方法研究。现有基于无关人群的交互作用研究主要集中在基于病例对照组的SNP交互作用识别方面,但现有大部分识别方法主要关注于二阶交互作用识别,忽略了对疾病发展有着重要影响的高阶SNP交互作用识别。尽管有少量方法能够检测高阶交互作用,但却面临识别能力较低、时间复杂度较高等问题。因此,本文提出了基于两阶段识别策略的高阶SNP交互作用识别方法HiSeeker。在筛选阶段,HiSeeker结合卡方检验及逻辑回归方法对两位点组合进行快速分析以筛选出与疾病具有较强或适中的相关性的两位点组合,在有效降低搜索空间的同时,保留了更多有效遗传信息。在搜索阶段,在筛选出的两位点组合上,根据考察位点集合大小,设计利用穷举搜索策略或基于蚁群算法的启发式搜索策略进行高阶SNP交互作用组合识别,这一机制使得HiSeeker在确保计算效率的同时能尽可能的识别出更多的交互作用。模拟实验结果表明,相比于现有典型识别方法,HiSeeker对高阶交互作用具有更高的识别能力,也具有较高的计算效率。在两个真实GWAS数据集上的实验表明,HiSeeker能够识别出对比方法难以识别的高阶交互作用,证明了HiSeeker在大规模真实遗传数据中进行交互作用识别的可行性和有效性。(2)基于三元家庭(trio families)的SNP交互作用识别方法研究。相比于基于无关人群的交互作用识别方法,基于家系的方法面对人群分层问题鲁棒性更高。但由于家系数据收集难度较大及结构更为复杂,现有基于家系的交互作用识别研究还比较少,现有识别方法也存在识别能力较低、计算效率较低及易受到强边际效应影响等不足。针对已有方法的不足,本文整合多因子降维法(Multifactor Dimensionality Reduction,MDR)和回归分析策略提出了面向三元家庭数据的SNP交互作用识别方法TrioMDR。TrioMDR一方面将MDR与逻辑回归方法相结合,在回归分析过程加入对边际效应的估计,降低了SNP交互作用识别过程中边际效应的不利影响,提高了识别精度;另一方面,相比于传统基于MDR的方法利用计算复杂度极高的置换检验策略去控制I型错误率,TrioMDR引入了半参数P-value校正机值,该校正机制仅需进行少量的置换即可对互作效应的显著性进行评估,这一校正机制在保证交互作用识别能力的同时,使得TrioMDR的计算效率得到显著提升。在大量不同场景下的模拟实验结果表明TrioMDR相比于一些典型方法能够更好的控制I型错误率、能够更好的识别SNP交互作用以及具有较高的计算效率。
其他文献
钙信号在细胞的许多生理进程中都起着重要作用,保持胞内钙离子的平衡对细胞来说至关重要,而胞内钙平衡是由一些钙泵、钙离子交换体、钙离子通道、酶等共同参与调控的。瞬时受
近些年,人工智能技术不断发展,问答系统作为其重要组成部分,受到了业界广泛的关注,如个人助理、智能客服等应用实例不仅提高了用户粘性,而且有利于企业降低人工成本,为问答系
联合国教育、科学及文化组织(以下简称“教科文组织”)会员国报告程序是为监督公约和建议书在各会员国的实际实施情况而建立的一种机制。教科文组织秘书处对会员国提交的报告
活动星系核具有十分强烈的活动性,而耀变体是其中的一个子类。耀变体喷流的方向接近观测者的视线方向,它有很多极端的观测特征,包括很强的高能辐射。很多学者对耀变体开展了
随着生活条件的改善,人们不断追求生活品质的提高,在休闲运动方面,更趋于参与国际化的、时尚的、高端的运动项目。特别是在北京取得了2022年冬季奥林匹克运动会的举办权以来,
浮游植物(藻类)是水库水体生态系统整个生产过程的初级生产者和基础环节,其种类和数量变化与周围环境要素密切相关,能对水体生态环境的变化做出最直接的响应。湖库浮游植物过
随着互联网技术的发展,边加权的有向网络在日常生活和工作中普遍存在,许多学者也对其统计性质做了进一步研究。但是网络图的度序列往往会携带许多敏感信息,因此保护隐私数据
水声信道状态信息的获取是水声通信的基础。由于水声信道具有动态时变的特性,单纯的信道估计技术不能满足水声通信的需求。水声信道跟踪是能动态跟踪信道状态信息的一种技术
2009年6月国家颁布《关于开展全国青少年校园足球活动的通知》开启了发展校园足球的序幕,在2010——2013之间又相继颁布了《足球“十二五”发展草案》和《全国青少年校园足球
可持续发展从上世纪八十年代提出至今已有几十年的历史,在这几十年的发展过程中,早已从环境保护领域延伸到了社会发展的各个方面。同时传统知识的国际保护问题从上个世纪八十