论文部分内容阅读
调查数据中的缺失数据问题普遍存在于抽样调查中,这些缺失数据影响后续统计分析,当今收集数据的技术和途径日益广泛,缺失数据的产生原因多样化,缺失数据成为当今抽样调查中不可避免的一部分。但缺失数据的存在增加统计分析难度,缺失数据会使有效数据减少,可获得的信息相应减少,影响统计量精度。由于不能充分表现总体信息,可能会导致统计推断出现偏差或无效,最终影响统计决策。随着人们研究问题的逐渐加深,传统的删除法和忽略法已经不能满足现实的需要。统计调查缺失数据问题的研究有重要应用价值。本文首先介绍了论文选题背景和研究意义,并对有关缺失数据研究作了简单文献描述;第2章介绍了缺失数据产生的原因及缺失数据的缺失机制和缺失模式,并详细介绍了均值插补法、回归插补法、EM算法、多重插补法等四种插补方法及其理论基础;第3章分别对单一变量随机缺失和多变量随机缺失进行了系统分析,在不同缺失率及不同抽样比条件下对四种插补方法的插补效果进行比较分析。给出四种插补方法的插补值偏差、均方误差及箱线图;第4章进行了基于模型的多重插补插补效果实证分析;以新农村建设满意度调查为背景材料,运用逻辑回归模型与多重插补相结合的方法进行实证分析,并探讨不同缺失率下的插补效果;第5章是全文总结及缺失数据处理方法研究工作进行展望。最终结果显示,缺失率增加,可用的样本数据所占比例减小,四种插补方法的插补值偏差逐渐加大。EM插补和多重插补两种方法在各缺失率下相对来讲都比较稳定,多重插补方法在中高缺失率下有较大的优势,运用逻辑回归模型与多重插补相结合的方法插补效果良好。