论文部分内容阅读
当今是大数据的时代,无论是在金融、经济、工程技术还是生物医学中,数据分析都有着不可替代且越发重要的作用。统计诊断是统计分析中重要的组成部分,它主要用于判断观测数据在既定模型中拟合的合理性,被广泛应用于各类统计问题中。但在现实生活中,数据缺失以及数据分布常呈现尖峰厚尾等情况,严重影响了数据分析的准确性。经过近几十年学者的不断研究,提出了众数模型,解决了数据中存在异常值或者误差分布偏斜的情况。然而,对于数据缺失尤其是不可忽略缺失的情况,线性众数模型的参数估计和统计诊断问题,至今还未有学者进行研究,更别说比线性众数模型更广泛的广义线性众数模型。所以,本文在已有研究的基础上对广义线性众数模型数据不可忽略的情况进行研究。由于线性众数模型简单易理解且应用范围是最为广泛的经典模型,同时线性众数模型也是广义线性众数模型最简单最特殊的形式,所以本文的研究先从线性众数模型入手,考虑在不可忽略协变量缺失下线性众数模型的参数估计及其统计诊断,然后再把相关结论推广到广义线性众数模型中。在文章中,我们首先借助核回归估计出协变量的缺失概率。同时,基于MEM算法,用逆概率加权调整复合分位数方法估计出模型参数,并推导出了模型参数估计的具体表达式;然后,基于似然函数对模型进行局部影响分析,推导出了响应变量和协变量受到扰动时,相应影响矩阵的具体表达式。紧接着,把前文得到的理论结果推广到了广义线性众数模型中。最后,通过随机模拟和具体的实例研究证明了文中提出的方法是有效可行的。