论文部分内容阅读
在人类的遗传病的历史研究中,可以得出全基因组关联分析(Genome wide association study,简称GWAS)是一种常见的分析方法,(GWAS)方法一般是通过识别高密度的分子标记,对数以千万计的单核苷酸(Single Nucleotide Polymorphisms,简称SNP)进行多态性标记,再通过考察SNP与特定疾病的关系来筛选出致病基因。全基因组关联研究可以有效的调查与复杂疾病有关的基因座。但也存在基因型没有被正确解码,仅仅只能获得基因型概率。由于基因位点数量庞大,而变量选择在高维统计建模中有着重要的运用。因此在这一项研究中,我们在基因型不确定情形下,运用R语言程序包进行基因位点的随机生成,得到基因型不确定情形下的基因位点,对于基因位点遗失部分,使用“剂量法”对基因位点数据的缺失值进行插值,由于基因型不确定,无法得出基因型不确定情况下的基因位点的基因类型,在这里使用“最可能基因型”得到相对确定的基因型概率,以前的传统的线性模型是在参数估计的领域,在基因型不确定情形下进行患病与不患病和基因位点之间的关联分析,本文创新使用B样条(B-spline)方法以及运用了广义线性模型:逻辑回归模型,即对基因不确定样本数据进行B样条处理,得到表型值Y是离散的,构建了关于B样条化处理的基因型不确定的基因型数据与参数的广义线性可加模型即逻辑回归模型,解释变量基因位点与被解释变量表型Y是患病与不患病的非线性关系,在非参数领域,避免了参数估计下线性模型的强约束条件,能更广义的应用到实际真实模型情况。B样条估计后,得到了处理过后的基因位点,继续运用SCAD(Smoothy Clipped Absolute Deviation,简称SCAD)进行变量选择,选择出能返回到患病与不患病密切相关联的基因位点,根据假定的模型,分析与真实数据模拟模型之间的相关程度,从而能用来检测患病与不患病与基因位点之间的关联程度是否相关,有着现实的研究意义。