论文部分内容阅读
摘要:本文提出了一种针对高维删失数据下线性模型问题变量选择问题的方法,即利用Buckley-James方法对删失部分进行差补,运用SCAD方法惩罚因子进行变量选择。
关键字:删失数据;BJ法;变量选择
0引言
在生存数据分析中,数据缺失的现象是非常普遍的。例如在对某项药物对某种疾病的作用对进行预测时,患者由于某种原因没有能够继续观测,造成数据的缺失。对于缺失数据下线性模型的统计推断,目前已有大量的文献进行研究(参见文献[1-3])。但是关于生存数据下线性模型的变量选择问题,目前研究的文献不是太多。而在实际的回归建模过程中往往会遇到大量的变量,因此在高维数据中这些变量中选出较为重要的变量成为回归分析研究中一个重要的课题。基于此,本文研究高维数据生存分析的变量选择问题。经典的变量选择方法,比如向前法、向后法以及逐步回归等,是通过构造一系列的子模型,然后利用假设检验来选择最优的子模型,从而达到变量选择的目的(参见文献[4-6])。但是这些方法往往会计算量较大,并且很难得出所得估计的渐近性质。为了克服这两个弱点,本文利用,得到了一个迭代算法。我们的方法可以同时给出参数分量以及非参数函数的估计,并且变量选择与系数估计同时进行,因此大大降低了计算量并且很容易得到估计的渐近性质,利用Buckley-James方法对删失部分进行差补,并且SCAD中的惩罚因子,进行迭代计算,改进了传统的变量选择方法,通过模拟分析,得到了较好的效果。
1方法论和主要结果
1.1 生存分析中删失数据的Buckley-James方法[1-3]
假设Ti为第i个观测者的生存时间,协变量为x,其中x=[x1,x2,...,xn],则有线性模型如下
式(1)
当Ti为右删失时,我们假设 ,其中 ,其中 ,如果没有删失数据,则模型1为线性回归模型,当出现删失时,Buckley-James提出了利用条件期望对删失部分进行差补的方法,即令Y*i定下如下
式(2)
其中利用模型1中的α及εi,则新的随机误差为
则有
式(3)
其中F(t)为分布函数。经过差补后的模型1可以转化为以下模型
式(4)
其中ε*i为均值为0的随机误差。利用最小二乘法即可得到差补后模型的参数估计。
1.2 SCAD变量选择方法[4]
在一般的生存分析数据中,遇到的问题一般为n>p的情况,当出现 p>n时,一般的变量选择方法不再适用,当前,基于惩罚因子的变量选择方法得到广泛的应用。学者Fan提出了SCAD的方法,考虑一个最小化问题,即
,其中 为惩罚项,Fan和Li给出了
惩罚项的一阶导数
可以求出
其中α=3.7,而λ采用交叉验证的方法求解。
1.3 基于Buckley-James的SCAD迭代算法
(1)取β0为β的初始值
(2)利用式(3)计算Y*i
(3)通过 计算
(4)当 ,d为给定的数,停止计算[]
(5)通过 ,计算出α
2 总结
通过Buckley-James的算法對缺失数据进行差补,并且利用惩罚因子SCAD方法进行变量选择,可以对高维数据生存分析进行变量选择问题,当然此方法的理论证明还需要进一步完善和通过模拟进行进一步验证。
参考文献:
[1]Wang Q H,Linton O, HardleW.Semiparametric Regression Analysis with Missing Response at Random[J].Journal of the AmericanStatistical Association,2004,99.
[2]Wang Q H, Sun Z H.Estimation in Partially Linear Models with Missing Responses at Random[J].Journal of Multivariate Analysis,2007,98.
[3]Buckley, J. and James, I. (1979). Linear regression with censored data[J]. Biometrika66,429–436.
[4]Fan,J.and Li,R.(2002)Variable selection via Nonconcave Penalized Likelihoodand its Oracle Properties[J]. Journal 01 the American Statistical Association,1348-1360.
[5]赵培信,薛留根.变系数部分线性模型的拟合优度检验 [J].应用数学,2008,21(4).
作者简介:江建明,广西恭城人,讲师,研究方向:应用统计
基金项目:本文为2016年度广西高校中青年教师基础能力提升项目
(项目编号:KY2016Lx343)研究成果
关键字:删失数据;BJ法;变量选择
0引言
在生存数据分析中,数据缺失的现象是非常普遍的。例如在对某项药物对某种疾病的作用对进行预测时,患者由于某种原因没有能够继续观测,造成数据的缺失。对于缺失数据下线性模型的统计推断,目前已有大量的文献进行研究(参见文献[1-3])。但是关于生存数据下线性模型的变量选择问题,目前研究的文献不是太多。而在实际的回归建模过程中往往会遇到大量的变量,因此在高维数据中这些变量中选出较为重要的变量成为回归分析研究中一个重要的课题。基于此,本文研究高维数据生存分析的变量选择问题。经典的变量选择方法,比如向前法、向后法以及逐步回归等,是通过构造一系列的子模型,然后利用假设检验来选择最优的子模型,从而达到变量选择的目的(参见文献[4-6])。但是这些方法往往会计算量较大,并且很难得出所得估计的渐近性质。为了克服这两个弱点,本文利用,得到了一个迭代算法。我们的方法可以同时给出参数分量以及非参数函数的估计,并且变量选择与系数估计同时进行,因此大大降低了计算量并且很容易得到估计的渐近性质,利用Buckley-James方法对删失部分进行差补,并且SCAD中的惩罚因子,进行迭代计算,改进了传统的变量选择方法,通过模拟分析,得到了较好的效果。
1方法论和主要结果
1.1 生存分析中删失数据的Buckley-James方法[1-3]
假设Ti为第i个观测者的生存时间,协变量为x,其中x=[x1,x2,...,xn],则有线性模型如下
式(1)
当Ti为右删失时,我们假设 ,其中 ,其中 ,如果没有删失数据,则模型1为线性回归模型,当出现删失时,Buckley-James提出了利用条件期望对删失部分进行差补的方法,即令Y*i定下如下
式(2)
其中利用模型1中的α及εi,则新的随机误差为
则有
式(3)
其中F(t)为分布函数。经过差补后的模型1可以转化为以下模型
式(4)
其中ε*i为均值为0的随机误差。利用最小二乘法即可得到差补后模型的参数估计。
1.2 SCAD变量选择方法[4]
在一般的生存分析数据中,遇到的问题一般为n>p的情况,当出现 p>n时,一般的变量选择方法不再适用,当前,基于惩罚因子的变量选择方法得到广泛的应用。学者Fan提出了SCAD的方法,考虑一个最小化问题,即
,其中 为惩罚项,Fan和Li给出了
惩罚项的一阶导数
可以求出
其中α=3.7,而λ采用交叉验证的方法求解。
1.3 基于Buckley-James的SCAD迭代算法
(1)取β0为β的初始值
(2)利用式(3)计算Y*i
(3)通过 计算
(4)当 ,d为给定的数,停止计算[]
(5)通过 ,计算出α
2 总结
通过Buckley-James的算法對缺失数据进行差补,并且利用惩罚因子SCAD方法进行变量选择,可以对高维数据生存分析进行变量选择问题,当然此方法的理论证明还需要进一步完善和通过模拟进行进一步验证。
参考文献:
[1]Wang Q H,Linton O, HardleW.Semiparametric Regression Analysis with Missing Response at Random[J].Journal of the AmericanStatistical Association,2004,99.
[2]Wang Q H, Sun Z H.Estimation in Partially Linear Models with Missing Responses at Random[J].Journal of Multivariate Analysis,2007,98.
[3]Buckley, J. and James, I. (1979). Linear regression with censored data[J]. Biometrika66,429–436.
[4]Fan,J.and Li,R.(2002)Variable selection via Nonconcave Penalized Likelihoodand its Oracle Properties[J]. Journal 01 the American Statistical Association,1348-1360.
[5]赵培信,薛留根.变系数部分线性模型的拟合优度检验 [J].应用数学,2008,21(4).
作者简介:江建明,广西恭城人,讲师,研究方向:应用统计
基金项目:本文为2016年度广西高校中青年教师基础能力提升项目
(项目编号:KY2016Lx343)研究成果