论文部分内容阅读
在统计学中,多借助零膨胀模型研究零膨胀数据潜在的模型结构及变量选择问题。然而,在多数情况下,响应变量的非零部分为定量数据,简单的零膨胀模型无法刻画这类数据的模型结构,对应的参数估计方法也不再适用。鉴于此,学者提出处理零膨胀半连续数据的两部模型。本文将惩罚函数的极大似然估计方法引入两部模型,研究其变量选择问题。本文的主要内容及结论如下:
1.阐明了基于惩罚函数极大似然估计方法的两部模型的原理,借助Logit-Gamma两部模型对现有的惩罚估计方法进行系统研究,并将这些方法应用到家庭医疗费用数据中,分析其影响因素。数值模拟和实例分析一致表明,基于MCP(Minimax Concave Penalty)函数的极大似然估计方法在稳定性、模型可解释性方面表现更优。
2.在Wang等提出的组合惩罚(CP)基础上进一步扩展,利用L2在高度相关解释变量间的良好表现,提出一种新的处理高维统计分析问题的惩罚似然估计方法:NCPM(New Combined Punishment Method),该方法高效便捷且易于实现。由理论证明可知,在一定正则化条件下,该方法具有变量选择的“Oracle”性质。模拟研究表明,当p?n或解释变量间的相关性较强时,该方法在一定程度上优于其它方法。
3.关于组合惩罚似然估计两部模型的变量选择,本文采用LLA-CGD(Local Linear Approximation and Coordinate Gradient Descent)算法。该算法解决了目标函数非线性问题,同时实现计算可行性。数值模拟结果显示,该算法选择效果良好,为两部模型的变量选择提供了新思路。
4.验证了太原市降水量大于零的数据服从Gamma分布,构造了Logit-Gamma两部模型。将提出的NCPM方法应用于该模型,分析太原市降水量的影响因素。分析可知:是否降水主要受露点温度、风速、日照时长、空气相对湿度、PM2.5及PM10浓度等的影响;当降水产生时,降水量多少更易受日平均气温、风速、日照时长、空气相对湿度、PM2.5及PM10浓度、AQI等的影响。最后与Elastic net方法对比,发现基于NCPM得到的模型更简洁,可解释性更高。
1.阐明了基于惩罚函数极大似然估计方法的两部模型的原理,借助Logit-Gamma两部模型对现有的惩罚估计方法进行系统研究,并将这些方法应用到家庭医疗费用数据中,分析其影响因素。数值模拟和实例分析一致表明,基于MCP(Minimax Concave Penalty)函数的极大似然估计方法在稳定性、模型可解释性方面表现更优。
2.在Wang等提出的组合惩罚(CP)基础上进一步扩展,利用L2在高度相关解释变量间的良好表现,提出一种新的处理高维统计分析问题的惩罚似然估计方法:NCPM(New Combined Punishment Method),该方法高效便捷且易于实现。由理论证明可知,在一定正则化条件下,该方法具有变量选择的“Oracle”性质。模拟研究表明,当p?n或解释变量间的相关性较强时,该方法在一定程度上优于其它方法。
3.关于组合惩罚似然估计两部模型的变量选择,本文采用LLA-CGD(Local Linear Approximation and Coordinate Gradient Descent)算法。该算法解决了目标函数非线性问题,同时实现计算可行性。数值模拟结果显示,该算法选择效果良好,为两部模型的变量选择提供了新思路。
4.验证了太原市降水量大于零的数据服从Gamma分布,构造了Logit-Gamma两部模型。将提出的NCPM方法应用于该模型,分析太原市降水量的影响因素。分析可知:是否降水主要受露点温度、风速、日照时长、空气相对湿度、PM2.5及PM10浓度等的影响;当降水产生时,降水量多少更易受日平均气温、风速、日照时长、空气相对湿度、PM2.5及PM10浓度、AQI等的影响。最后与Elastic net方法对比,发现基于NCPM得到的模型更简洁,可解释性更高。