论文部分内容阅读
目的:主要研究数据缺失对逐步回归变量筛选的影响;探讨不同缺失比例、不同缺失机制和缺失类型对逐步回归筛选结果的影响。附带验证待选变量之间的相关系数、待选变量个数、所设定的模型拟合程度、样本量(或者EPV)以及逐步回归变量进入和移除的显著性水平对逐步回归变量筛选的作用。方法:通过SAS软件进行蒙特卡洛数据模拟。设置真实模型(分为一般线性模型和probit模型),产生六种不同的数据集,包括:完整数据、完全随机缺失数据、线性随机缺失数据、曲线随机缺失数据、线性非随机缺失数据以及曲线非随机缺失数据。随后,在所产生的数据上进行逐步回归筛选,并记录筛选结果用于评估各个因素的作用。在线性的真实模型的情况下,我们设定了五个评价指标考察不同因素的影响,分别为:1)进入模型的真实变量平均个数;2)进入模型的噪音变量平均个数;3)综合指标G,衡量真实变量和噪音变量进入模型的综合情况,G=sensitivity*specificity,此处sensitivity=(被选入模型的真实变量个数/备选的真实变量的个数),specifcity=(1-被选入模型的噪音变量个数/备选噪音变量个数);4)筛选得到真实模型的比例;5)回归系数的估计值与真实模型中其设定值的偏差;其中前四个指标衡量不同条件下的逐步回归筛选对真实变量和噪音变量的识别能力,第五个针对系数估计的准确度。同时,为验证不同类型的结局变量模型中相关因素的影响是否一致,我们设置二分类结局变量的probit真实模型,探讨相关因素的影响。Probit模型的情况下所设定的评价指标与线性模型情况下的指标一致。模拟操作时,每种因素组合条件下模拟1000次,产生模拟结果用于因素评估。结果:真实变量进入模型的情况,回归系数的估计在一定程度上受缺失数据的影响,但缺失数据对于噪音变量进入模型的影响很小。我们的结果显示,缺失比例所产生的影响相对于缺失机制和缺失类型而言更为明显。缺失比例越大,进入模型的真实变量越少,系数估计的偏倚越大;当缺失比例较小时,各种缺失所呈现的差别很小,缺失带来的影响很大一部分跟样本量的损失有关;当缺失比例增大时,各种缺失情况的差别才开始显现。对于真实变量进入模型而言:1)完全随机缺失相对于其他缺失未表现出明显优势;2)在同种缺失机制下,线性缺失类型要优于曲线随机类型的表现;3)而在同种缺失类型下,一般随机缺失要略优于非随机缺失的表现;4)表现最差的为曲线非随机缺失。而不同种类的缺失对于回归系数估计的影响未呈现出统一的趋势性。另外,我们发现,真实变量进入模型的主要影响因素是所设定的模型拟合程度、待选变量之间的相关系数、所设定的逐步回归筛选显著水平以及样本量;而噪音进入模型的主要影响因素包括:待选变量个数和逐步回归筛选的显著性水平;对于回归系数估计的准确度以及所得到真实模型的比例,主要影响因素为:真实模型的拟合程度以及待选变量之间的相关性。结论:1)对存在缺失的数据进行逐步回归变量筛选时:缺失的影响主要体现在对真实变量的进入以及回归系数的估计上,对于噪音变量的进入其作用不明显;若缺失比例较小(如,总体缺失比例小于25%),各种缺失的差别不大,缺失对于筛选结果的影响主要可归为样本量的减少所引起;当缺失比例较高时,缺失不单单是样本量的损失所能估计,不同缺失对于实际研究中因素的效应估计以及影响因子的筛选可能产生不同影响。因此,我们不仅需要关注缺失的机制,同时需要关注缺失类型。2)我们建议研究者无论对完整数据还是缺失数据采用逐步回归变量筛选时,需要注意以下因素:待选变量相关系数、待选变量个数、样本量以及逐步回归显著性水平等因素对逐步回归筛选;正如我们的研究所示,逐步回归有其自身的缺陷性;它可能漏选真实变量、选入噪音变量并在系数估计时产生偏差;这些情况在数据存在共线性以及待选变量个数较多时尤其严重。所以,无论缺失与否,当待选变量之间相关性较高且/或待选变量个数较多时,我们不推荐采用逐步回归的方法。