基于惩罚似然的变量选择方法及其在高维数据中的应用

来源 :对外经济贸易大学 | 被引量 : 9次 | 上传用户:xm_104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展,我们能够获得到的数据信息量和变量维数越来越大。如何从众多候选模型中选择最佳的一个,就成为计量经济学重要的研究内容。好的变量选择方法能够改变传统方法存在的计算量大和过度拟合等问题,选出的模型有良好的预测精度和预测能力,有效地排除掉干扰变量,获得最简洁的模型。惩罚似然函数法作为连续的最优化过程,与传统的离散方法相比更稳定,即使变量个数很大时,通过运用合理的算法也能有效的执行。因此对于高维数据模型来说,用惩罚似然函数法来进行模型选择将会更加有效,准确,稳定。本文基于惩罚似然函数方法,研究了几类高维数据模型的变量选择方法,获得的方法能够同时进行模型选择和变量估计;此外,运用概率论和数理统计知识证明了估计量具有Oracle性质,包括能够以概率趋于1正确地选择模型以及估计量渐近地服从正态分布。具体来说,本文研究的方法及主要结论如下:首先,本文提出了高维数据模型自适应桥估计方法。受桥估计方法的启发,本文按照变量的重要性程度对惩罚项施加不同的权重,研究自适应桥估计量是否满足好的估计量的标准,即是否具有Oracle性质,包括能否以概率趋于1正确地选择模型以及估计量是否渐近地服从正态分布。本文证明了在适当的条件下,自适应桥估计方法具有Oracle性质。通过随机模拟和实际数据来评价自适应桥估计方法的良好的数值表现和实证表现。其次,本文研究了高维数据线性回归模型的M-估计方法,讨论了惩罚项为局部线性逼近情形下的估计量的性质。M-估计方法是涵盖最小一乘估计、分位数回归、最小二乘估计以及Huber回归的框架性方法。当数据出现异常值或误差项服从厚尾分布时,此时M-估计的特殊情形——最小一乘回归比最小二乘估计更加稳健。本文在理论上证明,通过施加一定的条件,M-估计和局部线性逼近结合作为目标函数获得的估计量具有良好的大样本性质;在数值模拟部分,选择了编写合适的算法展现了该方法具有更好的稳健性;对于超高维数据模型,我们也通过模拟说明向后回归与我们提出的方法相结合表现更好;在实证部分,通过实际数据说明了我们提出的方法能够很好的选择变量和估计参数。最后,本文研究了高维情形下基于Logistic模型的信贷违约客户识别方法。选取了信用评分模型中常用的Logistic模型对信贷违约行为的影响因素进行识别,同时利用所建立的Logistic模型对信贷客户的违约风险进行衡量与预测。数值模拟结果表明,本文提出的变量选择方法是有效的。实证结果也说明运用本文提出的高维数据模型的变量选择方法,可以选出具有较高解释能力和预测能力的模型。
其他文献
当代科学技术的迅猛发展催生出核电站,航天器等各类现代工程技术系统。在极大推动人类社会向前发展的同时,这些复杂系统在运行使用过程中屡有安全事故发生,它们的安全性问题
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近年来,作为非线性时间序列主流模型之一的平滑门限自回归模型(STAR)被众多学者所关注。非线性STAR模型对数据进行建模时,一些经典的经济理论经常涉及。比如,购买力平价理论(
文章通过结合实际的工作经验,从工业废水处理池的腐蚀机理出发,并就较常采用到的防腐蚀材料以及工艺结构问题进行了分析与探讨。
目的探讨关节镜对肩袖损伤治疗的手术方法和临床疗效。方法随访该院2008年6月至2012年2月收治的肩袖损伤患者28例,术前常规拍摄肩关节正位X线片及肩关节MRI,结合查体及镜下所
旅游业已成为四川建设全国经济强省的重要产业支撑,2017年,四川全年实现旅游总收入8923.1亿元,比上年增长15.8%,比“十二五”末增长43.7%;接待国内游客6.7亿人次,比上年增长6
为确立大麻药总皂苷滴丸的最佳成型工艺并考察其溶出度,以滴丸的成型率为评价指标,对大麻药滴丸基质与冷却剂的选择、大麻药与基质的配比、滴制的温度、滴距、滴速进行了单因