基于区间删失的变量选择方法研究与应用

来源 :上海财经大学 | 被引量 : 0次 | 上传用户:q513867791
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物医学、经济金融、人口学、生态环保等多个领域,都存在着一种情况,即实验者无法观测到目标事件具体发生的时间,由此产生的数据被称为删失数据;根据观测时段和事件发生时间的时序关系,删失具体有左删失、右删失和区间删失三种分类。在很多既往研究中,为了方便建模,缺失的、不完整的样本会被剔除,但同时这也导致了部分信息被浪费。针对删失数据,生存分析理论是现今非常有效的手段;生存分析理论把观测时点的状态纳入模型,从而使得信息部分缺失的样本也能发挥作用。半参数模型作为生存分析理论最具影响力的模型,被广泛应用在各个领域。近年来,针对半参数模型的各种性质,学者多有研究。本文主要着眼于变量选择方法。在实践中,半参数模型的应用常常会碰到变量冗余的问题。多余的变量不仅会造成过拟合的问题,也会增加信息的收集成本和储存成本。在现有的研究中,右删失数据上的变量选择已有很多成熟的理论,相对来说,区间删失数据的变量选择方法研究还有很大不足,主要体现在三个方面:(1)很多基于应用的研究偏向于变量选择结果,而使用不连续的基准生存函数或参数模型,从而缺少一般性;(2)有些变量选择方法局限于在某个半参数模型上,还有推广的空间;(3)一些方法的估计效率很低,在实践中非常耗费运算量和时间,不利于推广。在此基础上,本文首先概述了生存分析理论的基本概念和变量选择的主流方法,同时阐述了生存分析上变量选择的既往研究,接着探究了一则基于右删失数据的创新实践,然后将研究拓展到区间删失数据上,从正则化角度和最优子集角度给出了两个方法创新,并分别给出了估计性质和模拟研究。为了验证新方法在实际数据上的效果,本文将提出的两种方法和其他常用的变量选择方法应用在区间删失数据实例上。最后,本文进行了总结和讨论,归纳了每一张的内容和贡献,并对未来的研究方向进行了一些展望。本文的贡献如下:1.给出了一则右删失数据上变量选择的创新应用。近年来,随着移动支付的风靡,一类线上自动展期的合约或会员制方兴未艾。客户通过在网页或APP平台与商家签订自动或一键展期的合约,到期由第三方支付平台自动扣费。此类的合约延伸出一个客户保留率的研究。如果把客户的取消合约视为“死亡”,把客户在整个试验期间续费的现象视为“删失”,则此类合约就是一个典型的生存分析问题。在实践中,一个客户的信息往往有很多,而商家往往只需要关键因子。本文对此类模型做了深入研究,通过应用正则化的比例危险模型筛选出真正有影响力的因子,并用筛选出的因子建立了客户的流失风险评分机制和基于评分的分类器。结果从多个维度显示分类器的预测结果非常准确。在本应用在中,本文综合比较了几种模型,在最优模型的基础上建立了留存概率的动态阈值机制。2.从正则化角度出发研究了区间删失数据下的变量选择问题,提出了把基于比例危险模型的适应性岭估计推广到加性危险模型上。该部分引入sieve方法构造了光滑、非降的基准生存函数,设计了迭代算法,从而在每一步里更新待估参数,直到收敛。本文给出了估计的渐近性质,证明了估计的稀疏性和渐近正态性。同时,本文进行了多种情况下数值模拟,比较了不同样本量、自变量维度、观测频率和真实基准生存函数下的估计表现,结果显示了估计的表现是很优秀的,估计值比较准确,变量选择的真阳性率很高,同时假阳性率很低,能很好地筛选出真实变量。3.从最优子集角度出发研究了区间删失数据下的变量选择问题,提出了基于近似信息准则、免于调参的估计方法。该方法的思想来自于最优子集结合信息准则的筛选方法,由于信息准则含有l0范数因此不光滑,从而不能用微分求最优值,本文用修改后的Sigmoid函数去近似l0范数,从而得到一个光滑的近似信息准则表达式,由于信息准则不需要调参,因此通过对信息准则求最大值就可以得到估计。过程中为了同时取得稀疏性和光滑形态,本文设计了重参数化过程,将待估参数转化为另一组变量。文章证明了估计的一致性,稀疏性和渐近正态性。在数值模拟中,实验设计了低观察频率和高观察频率、弱信号和强信号的情景,比较了不同样本量和真实累积危险函数前提下的估计结果;同时,本文比较了各种变量选择方法,发现该方法的优点是假阳性率非常低,同时估计准确。在本次实验中,本文记录了各种方法平均一次估计的估计时长,证实了本方法高效的特点。4.对区间删失数据上的变量选择方法进行了实证。本文申请了美国国际开发署创立的一项行之有年的尼日利亚人口普查数据库,计算2003年儿童死亡率数据,发现其高达20%以上,远高于世界平均水平,同时每个儿童都有多项数据,适合用变量选择方法发掘出背后有影响力的因素。同时,儿童的具体死亡时间很多只能精确到月或年,这就构成了区间删失型数据。本文把第三章和第四章的变量选择方法用在了这个实例上,同时还用一些常用的惩罚项和逐步回归对该实例进行了分析,从24个变量中筛选出真正影响死亡率的因子,最后给出了各种方法的估计结果比较,和基准生存函数以及基准累积危险函数的拟合情况。
其他文献
随着科技的发展,各种机械设备的小型化轻量化成为一种趋势,微机电系统受到人们的广泛关注。传统的微机电系统主要由压电驱动器,电磁驱动器,电热驱动器和静电驱动器等核心驱动部件组成。然而,这些驱动设备往往离不开复杂的能量转换和传动系统,给设备整体的微型化带来很多困难。近年来,光致形变效应,即光致非热效应引起的形状变化,重新引起了人们的关注,成为传统机电致动器/传感器的替代解决方案。它具有光能直接转化为机械
学位
随着化石能源的快速枯竭和环境污染的日益严重,开发清洁的可再生能源已成为社会可持续发展的当务之急。而常见的可再生能源如太阳能具有间歇性和空间分散等缺点,因此可再生清洁能源的高效转化与存储就成为全世界研究机构关注的焦点。其中,探索安全高效的电解水制氢能量转化技术和锂离子电池能量存储技术成为全球科学家的研究热点。但是,现有能量转化与储存材料存在活性低、稳定性差和成本高等问题。针对这些挑战,本论文以地球储
学位
宏观经济不确定性是度量经济系统不可预测程度的重要指标,2008年金融危机以来吸引了学界的普遍关注。宏观层面,宏观经济不确定性可改变政策执行效果,影响产出、投资、消费等多个方面;微观层面,宏观经济不确定性影响企业投融资决策和家庭资产配置。因此,宏观经济不确定性的相关研究对宏观金融政策制定者、企业和个人投资者均具有重要的理论和现实意义。研究宏观经济不确定性需首要解决如何测度宏观经济不确定性的问题。关于
学位
在气候问题日益显著的当下,碳减排成为世界各国共同关注的焦点。我国多次在国际会议上作出庄严的承诺,显示出了坚定的减排决心,也充分体现了大国担当。2020年9月22日,在第75届联合国大会期间,中方提出将提高国家自主贡献力度,采取更加有力的政策和措施,二氧化碳排放力争于2030年前达到峰值,努力争取2060年前实现碳中和。碳减排是一项系统性的工程,考虑到我国地区间经济发展水平和资源禀赋的显著差异,基于
学位
控制图作为统计过程控制领域最重要的方法,在工业生产、疾病防治、地质监控等领域有着广泛的应用。受限于历史样本容量大小、理论研究基础和计算复杂度等因素,传统的统计过程控制图研究通常基于固定的历史样本观测和固定的参数估计来开展。而随着工业大数据理念的跟进、数据采集和数据分析技术的提升,待监控的数据流普遍呈现“形式复杂化”、“特征动态化”等样态。“固定化”设计的控制图已无法完全满足实际生产领域的监控需求,
学位
基于学习者为满足取得佳绩的期望和需求而调动情绪的倾向和学习者所认同的学习策略之间的差异的教学具有非常重要的作用。因此,为了往后的深入学习,有必要理清学习策略和语言学习策略的概念。技巧是学生实现目标的工具,也是学习策略的一部分(Derry,1990 and Schnotz,1994)。而语言学习策略是综合目标语言、学习者自身特点和其他方法的较为宽泛的概念(Ehrman,Leaver,and Oxfo
学位
进入21世纪,人工智能、大数据、云技术、生物技术等各项重大技术几乎在全球各个领域掀起了波澜壮阔的巨变,驱动着社会诸领域发生根本的变革。在教育领域,人工智能的全方位渗透激发了人们对未来学校的无限想象,更引发人们对未来学校的关注与热议。自从微软公司资助的“未来学校”在费城播下种子之后,以未来学校命名的会议、项目、计划迅速向全球蔓延开来,世界各国纷纷启动信息技术“重建”学校教育的行动。在此背景下,未来学
学位
从晚清开始,新旧思想驳杂,中西文化冲突强烈,在传统思想与现代文明交织的多元价值社会里,五四新文学先驱者之所以激进而又坚定地站在了新文学的阵营里,与他们的知识系统有着密切的关系。五四新文学先驱者的知识系统是新文学发生的主体性因素,是主体创造力的重要来源。因此,本论文从五四新文学先驱者多元化的知识类型、五四新文学先驱者的知识的现代性转变、五四新文学先驱者的知识对其思想与文学创作的作用、五四新文学先驱者
学位
复杂网络研究作为新兴的学科方向之一,极大地吸引了来自不同学科研究人员的广泛关注。针对复杂网络的定性和定量研究,有助于揭示复杂网络的潜在特征以及复杂系统中普遍存在的一般规律,在生物医药、社会科学、金融工程等诸多学科中具有重要的学术和实践意义。复杂网络的社区结构划分是有效降低复杂系统复杂性的方式之一,它有助于人们更好地分析和认识复杂系统中个体组织特性的结构,更加深入地理解复杂系统的演化机制,是人们改进
学位
相较于单个参数模型,有限混合模型能够更好地刻画来自多个子总体的异质性数据的分布特征。在很多实际问题中,混合模型的真实成分个数通常是未知的,从而给模型的统计推断带来困难。一般情况下,更容易得到混合模型成分个数的上界,但是基于这种扩大的模型进行参数估计存在一些问题,包括:参数缺乏可识别性、费希尔信息矩阵退化以及真实的模型参数位于参数空间的边界。针对这些问题,本文研究了混合模型参数估计的收敛速度以及成分
学位