论文部分内容阅读
在基因与疾病的关联分析中,一个较普遍的做法是讨论单个疾病与基因的关系,实际上由于代表疾病的各种性状之间具有一些相关性以及基因本身的基因多效性,使得同时检验一些性状的基因关联性变得有意义,并且与考察单个性状相比具有更好的检验功效.在这个领域的研究中,不少学者研究的都是具有相关关系的定量性状或者定量性状与定性性状与基因的同时关联分析.本文单单讨论二元的二分表现型的基因关联分析,在三种模型下研究多个疾病与基因的关系.第一种模型是传统的logistic回归模型,在考虑单个定性性状和基因的关系基础上,通过联立得分函数构造检验统计量完成多个性状与单个基因的关联检测;第二种模型假定存在与定性性状相关的潜在的连续型变量,使得定性变量的取值由连续型变量决定,通过讨论该连续型变量与基因的关系来研究定性变量与基因的关系,由于这些连续型变量的相关性使得同时关联检测比单个关联检测有意义的多.第三种模型基于条件分布的概念,假设多个定性性状的某一个性状与其余性状和基因一起具有logistic线性关系,这样多个性状的概率分布可以方便给出,从而大大简化模型,提高检验功效. 文章的第一部分介绍基因关联检测的研究背景和研究意义,并给出已有的参考文献中关于基因关联检测的检验方法,分别从基因位点和性状两个方面出发介绍;文章的第二部分考察两个二分变量和单个基因的同时关联分析,提出了三种模型,并在每种模型下都给出检验方法,理论上证明了这些方法的合理性并给出检验统计量;文章的第三部分通过计算机模拟分别验证三种检验方法是否能控制第一类错误,并比较在不同的数值模拟参数下三种检验方法的检验功效,给出三种检验方法的优劣;文章的第四部分对模拟结果进行分析,给出结论:三种检验模型中潜在正态模型的检验功效最高但可操作性不大,条件线性模型功效次之,但当人群中只患某种疾病的概率远小于同时患两种疾病的概率时条件线性模型是最佳的选择.在解决一般的二维二分表现型变量是否与特定基因相关时我们可以用logistic回归模型,当两种疾病有较明显的相关性时可以用条件logistic回归模型进行假设检验.