基于Buckley—James和惩罚因子的高维删失数据变量选择算法

来源 :科学与财富 | 被引量 : 0次 | 上传用户：xiaohu850412

【摘要】

：

【作者】

：

江建明

【出处】

：

科学与财富

【发表日期】

：

2017年29期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：本文提出了一种针对高维删失数据下线性模型问题变量选择问题的方法，即利用Buckley-James方法对删失部分进行差补，运用SCAD方法惩罚因子进行变量选择。
　　关键字：删失数据；BJ法；变量选择
　　0引言
　　在生存数据分析中，数据缺失的现象是非常普遍的。例如在对某项药物对某种疾病的作用对进行预测时，患者由于某种原因没有能够继续观测，造成数据的缺失。对于缺失数据下线性模型的统计推断，目前已有大量的文献进行研究（参见文献[1-3]）。但是关于生存数据下线性模型的变量选择问题，目前研究的文献不是太多。而在实际的回归建模过程中往往会遇到大量的变量，因此在高维数据中这些变量中选出较为重要的变量成为回归分析研究中一个重要的课题。基于此，本文研究高维数据生存分析的变量选择问题。经典的变量选择方法，比如向前法、向后法以及逐步回归等，是通过构造一系列的子模型，然后利用假设检验来选择最优的子模型，从而达到变量选择的目的（参见文献[4-6]）。但是这些方法往往会计算量较大，并且很难得出所得估计的渐近性质。为了克服这两个弱点，本文利用，得到了一个迭代算法。我们的方法可以同时给出参数分量以及非参数函数的估计，并且变量选择与系数估计同时进行，因此大大降低了计算量并且很容易得到估计的渐近性质，利用Buckley-James方法对删失部分进行差补，并且SCAD中的惩罚因子，进行迭代计算，改进了传统的变量选择方法，通过模拟分析，得到了较好的效果。
　　1方法论和主要结果
　　1.1 生存分析中删失数据的Buckley-James方法[1-3]
　　假设Ti为第i个观测者的生存时间，协变量为x，其中x=[x1，x2，...，xn]，则有线性模型如下
　　式（1）
　　当Ti为右删失时，我们假设，其中，其中，如果没有删失数据，则模型1为线性回归模型，当出现删失时，Buckley-James提出了利用条件期望对删失部分进行差补的方法，即令Y*i定下如下
　　式（2）
　　其中利用模型1中的α及εi，则新的随机误差为
　　则有
　　式（3）
　　其中F（t）为分布函数。经过差补后的模型1可以转化为以下模型
　　式（4）
　　其中ε*i为均值为0的随机误差。利用最小二乘法即可得到差补后模型的参数估计。
　　1.2 SCAD变量选择方法[4]
　　在一般的生存分析数据中，遇到的问题一般为n>p的情况，当出现 p>n时，一般的变量选择方法不再适用，当前，基于惩罚因子的变量选择方法得到广泛的应用。学者Fan提出了SCAD的方法，考虑一个最小化问题，即
　　，其中为惩罚项，Fan和Li给出了
　　惩罚项的一阶导数
　　可以求出
　　其中α=3.7，而λ采用交叉验证的方法求解。
　　1.3 基于Buckley-James的SCAD迭代算法
　　（1）取β0为β的初始值
　　（2）利用式（3）计算Y*i
　　（3）通过计算
　　（4）当，d为给定的数，停止计算[]
　　（5）通过，计算出α
　　2 总结
　　通过Buckley-James的算法對缺失数据进行差补，并且利用惩罚因子SCAD方法进行变量选择，可以对高维数据生存分析进行变量选择问题，当然此方法的理论证明还需要进一步完善和通过模拟进行进一步验证。
　　参考文献：
　　[1]Wang Q H，Linton O， HardleW.Semiparametric Regression Analysis with Missing Response at Random[J].Journal of the AmericanStatistical Association，2004，99.
　　[2]Wang Q H， Sun Z H.Estimation in Partially Linear Models with Missing Responses at Random[J].Journal of Multivariate Analysis，2007，98.
　　[3]Buckley， J. and James， I. （1979）. Linear regression with censored data[J]. Biometrika66，429–436.
　　[4]Fan，J.and Li，R.（2002）Variable selection via Nonconcave Penalized Likelihoodand its Oracle Properties[J]. Journal 01 the American Statistical Association，1348-1360.
　　[5]赵培信，薛留根.变系数部分线性模型的拟合优度检验 [J].应用数学，2008，21（4）.
　　作者简介：江建明，广西恭城人，讲师，研究方向：应用统计
　　基金项目：本文为2016年度广西高校中青年教师基础能力提升项目
　　（项目编号：KY2016Lx343）研究成果

其他文献

浅谈创意产业集群与区域经济发展

摘要：伴随着经济、文化的不断发展，一个新型的产业应运而生，它就是创意产业。创意产业集群作为创意产业发展的重要载体，逐渐成为推动区域经济发展的核心竞争力。本文简单分析了创意产业集群对区域经济发展的意义，并探讨了创意产业集群的区域发展策略。　　关键词：创意产业；集群；区域经济发展　　创意产业是社会新时期的一种新兴产业，在现代市场环境中发展尤为迅速，且区域集群化的趋向显得愈发明显。作为知识经济下最具代表

期刊

新常态下融入“互联网+”的大学生创新创业

摘要：在如今社会发展的新常态下，“互联网+”时代的到来给大学生创新创业带来了许多机遇，就工商管理专业的教育现状来看，其创新创业模式也应该要进行把握当前的局势进行改革。现阶段我国大学生创新创业还存在着一系列的问题有待解决，这些问题主要表现在教育过程中对社会经济发展形势不了解，创新创业方面的的观念不够明确，同时在创新创业教育方面也缺乏相应的技术和资金。但在社会经济发展的新常态下融入“互联网+”可以给大

期刊

一例抛物线焦点弦中点轨迹的几种求法

摘要：抛物线焦点弦问题蕴含丰富的数学思想，对这一问题的研究有助于挖掘抛物线的性质，也有助于学生拓展解题思路、掌握基本的数学思想方法。　　关键词：抛物线；焦点弦；中点轨迹　　二次曲线焦点弦中点轨迹的求法是平面解析几何中最常见、最基本的方法之一。对该问题的切入点不同，相应的求解方法也不同，而不同的方法又体现着不同的数学思想，因而对这一问题的深入研究对深刻理解二次曲线以及学生掌握基本的数学思想方法大有大

期刊

成品卷烟物流系统效能提升方案研究

摘要：根据物流系统在卷烟工业的应用现状，研究背景、研究意义及卷烟工业物流自动化的特点和系统，结合赣州卷烟厂卷烟成品物流系统的实际情况，对赣州卷烟厂成品卷烟物流系统现状进行了深入的分析，找出影响成品卷烟自动化物流系统效能的诸多因素，进行针对性的改进，达到提高卷烟生产企业成品物流自动化的效率，从而实现卷烟成品物流系统生产效率的进一步提高。　　关键词：成品卷烟；物流系统；方案研究　　The finish

期刊

知识产权信息管理系统的设计与实现

摘要：随着我国经济的不断发展，企业开始重视相关管理方式和理念的改变，希望在此基础上实现企业经济效益的巨大提升。知识产权信息管理系统作为企业的一个重要系统，在保证企业经济利益以及综合效益上发挥着重要的作用。本文从目前企业知识产权信息管理的內涵入手，对于其中的管理体系设计方法以及管理内容进行综合的分析和研究，为实现产权信息管理系统的综合管理策略进行阐述，希望以此实现企业经济效益的提升。　　关键词：知识

期刊

新闻媒体在政府危机管理中的作用

摘要：政府对危机的处理能力已经成为考验政府执政能力的重要标准，而媒体在社会危机发生时的舆论引导作用对危机的化解有不可取代的作用。因此，如何有效运用新闻媒体的引导作用，实现政府和媒体之间的良性互动成为当今时代一个不可逃避的话题。本文首先对新闻媒体与政府危机管理进行了概述，详细探讨了新闻媒体在政府危机管理中的作用以及充分发挥新闻媒体在政府危机管理中作用的对策，旨在提高政府有效应对和化解公共危机的能力。

期刊

工业领域中电子信息工程的设计研究

摘要：随着我国电子信息技术不断发展，如今电子信息技术已经成为推动工业领域发展的巨大驱动力，电子信息工程数量也逐渐增多。电子信息工程主要是用于研究相关信息，从而提高信息获取、处理的效率和质量。但是从当今我国带工业领域电子信息工程应用现状来说，很多电子信息工程在设计当中存在着问题，这就需要针对现有问题提出相应的解决策略。基于此，本文首先探究工业领域电子信息工程设计中的问题，进而提出几点建议。　　关键词

期刊

探讨智能型机械自动化的发展与应用趋势

摘要：随着改革开放的不断发展，我国的工业体系也在逐渐完善，个方面的发展都有了长足的进步。进入21世纪之后，新型机械自动化体系逐渐取代传统的工业体系，其中智能型机械自动化，普遍应用于各项工业生产中，有效提高了工厂的生产效率，提高了产品质量，有利于企业在现代科技化中的发展与进步，符合当代科技化发展潮流，智能型机械自动化也是我国在“十二五”规划中重点扶植的新型产业项目之一。本文就对我国智能型机械化未来的

期刊

浅谈三维GIS的问题和发展趋势

摘要：三维GIS的相关研究已成为GIS未来重要的发展趋势。本文简单阐述了三维GIS的定义和特点，并对其发展的主要问题和需求进行了分析，在此基础上提出了未来发展的展望。/　　关键词：三维GIS空间数据地理信息　　引言：　　随着GIS应用的发展，人们越来越多地要求从三维空间来处理问题，传统的二维GIS应用已经无法满足现代产业的需求。特别是在对GIS要求较高的部门如采矿、地质、石油、水利、城市规划等领域

期刊

煤矿瓦斯治理中的过程控制策略分析

摘要：煤炭与瓦斯是同时存在于煤矿中的，瓦斯易燃易爆，在矿井中如果瓦斯聚集量过大，并且浓度超过一定的范围，则在遇到火源时极易产生爆炸，从而引发煤矿安全生产事故。因此对深部煤矿开采瓦斯治理技术进行详细探究迫在眉睫。文章就简要对此加以分析和论述。　　关键词：煤矿；瓦斯治理；控制策略　　一、煤矿瓦斯治理过程中存在的问题　　目前我国的新能源开发和利用都有了明显的进步，但是我国现在所使用的主体能源仍然是煤炭，

期刊

基于Buckley—James和惩罚因子的高维删失数据变量选择算法

与本文相关的学术论文