论文部分内容阅读
目的:在线性回归分析中,共线性是最常见的问题之一。国际上较为公认的优势分析,相对权重,乘积尺度等自变量相对重要性估计方法在共线性条件下估计自变量相对重要性结果不一致,甚至无法估计。针对以上问题,本文引入共性分析方法和贝叶斯优势分层法两种方法对有共线性的医学数据进行自变量的效应分析和相对重要性估计。方法:共性分析法将线性模型总变异R~2的分解为自变量的单独和共同的变异贡献(或效应),共2~p-1(P为自变量的个数)个分区。通过确定不同子集模型(自变量组合)对回归的变异贡献效应比例,对自变量进行效应结构分析和相对重要性估计,并对共性分析估计自变量相对重要性进行了改进,与优势分析法进行了比较。贝叶斯分层优势法基于Bradley–Terry成对比较模型,先用优势分析法计算出自变量在不同k水平上R~2的贡献增量,再通过成对比较构建各个k水平win/loss表,构建优势指数的似然函数和分层先验分布推断出优势指数的后验分布。利用Markov Chain Monte Carlo(MCMC)的Gibbs抽样法以重复迭代的方式求得各自变量的优势指数及其95%的置信区间。共性分析法和贝叶斯优势分层法的实证分析均通过R统计软件实现。结果:在本文中,我们用两个医学研究数据对回归模型中的自变量效应关系和相对重要性进行分析。对以生育能力为因变量,职业、考试能力、受教育水平、信仰、婴儿死亡率为自变量的47个地区样本数据进行共性分析。分析结果发现职业,考试能力,受教育水平,信仰这四个自变量间存在共线性,职业,考试能力通过抑制受教育水平、信仰与解释生育能力无关的方差,增强了受教育水平,信仰,职业对生育能力的解释能力,有助于人们深入了解受教育水平、信仰对生育能力变化的关键作用。改进后的共性分析法自变量相对估计结果与优势分析法一致,各自变量对生育能力的相对重要性排秩为受教育水平>考试能力>婴儿死亡率>信仰>职业,且各自变量估计的总贡献值等于回归模型R~2。对以未折叠蛋白质的能量为因变量,亲脂性常数(PIE)、亲脂性常数(PIF),一个氨基酸链从蛋白质内部转换成水的自由能(DGR),氨基酸接触水的表面面积(SAC),分子折射率(MR),极性参数(Lam),氨基酸的分子面积(Vol)为自变量的19个样本数据进行贝叶斯分层优势分析。MCMC的Gibbs抽样法重复迭代10000次得到各变量优势指数d_i的点估计和95%置信区间,PIF的优势指数最大,其次为DGR,PIE,Lam,Vol,MR,SAC。因此自变量相对重要性排秩为PIF>DGR>PIE>Lam>Vol>MR>SAC。结论:共性分析法可以显著提高多元回归研究中的模型探索能力,当自变量间相关不独立时,可通过效应分析明确识别共线性和抑制在回归模型中的大小和位置。改进后的共性分析法与优势分析法在自变量相对重要性估计中的作用一致。当自变量之间高度相关或近似完全相关,可利用贝叶斯优势分层法法估计自变量的相对重要性,该方法为相关自变量的群体相对优势能力提供了更全面的推断,能作为自变量重要性估计的“适用”工具。