论文部分内容阅读
统计研究主要基于数据和模型两个部分,两者相辅相成,密不可分,模型结果是否有效的关键在于在建模过程中其是否能够深度挖掘出数据隐含的真实信息。检验模型的有效性关键在于模型是否能够传达数据的核心信息,是否能够从根本上解决研究者想要解决的问题,它是否能够运用到实际生活中,这些都是需要在建模过程中深入研究的问题。本文基于变系数模型运用复合分位数回归的方法,同时对多维协变量进行变量选择。这样,此模型不仅能够较简洁的概括变量间的复杂关系,而且能够反映系数的动态变化特征。本文的做法是基于数据,通过在目标函数中加入惩罚项,在变系数模型的框架下,运用B-样条函数逼近,同时从组的视角出发,运用自适应LASSO进行变量选择,即可得到与响应变量相关的协变量以及其对应系数的变化特征。此方法是基于数据得出的模型结构,不需要事先做出假定,且结合了变系数模型的灵活性和复合分位数的高效性,具有广泛的适用空间。本文通过模拟研究和实例分析来比较基于不同模型下的系数估计和变量选择的结果。在模拟研究中,我们主要发现复合分位数回归相对于其他两种模型在面对不同分布的误差项时,其发挥更加稳定,具体表现为模型偏差维持在相对较低水平,同时模型正确的选择率相对其他两个模型较高。在面对协变量维数增加时,三种模型结果均不理想,但是复合分位数回归相对较好。本文关于实例分析采用的是波士顿房价数据。主要介绍了数据来源和基本属性特征以及已有的研究。根据模型结果显示,对波士顿房价有影响的相关变量是城镇人均犯罪率、住房的平均房间数、城镇的学生—教师比率以及二氧化氮浓度均为相关变量,而不动产税率以及1940年前房东比率为无关变量。