论文部分内容阅读
抽样调查中的无响应问题,是影响调查信度和数据品质的重要因素之一。无论是入户访问或街头拦截等面访调查,还是基于互联网介质的在线调查,受访者面对调查问卷的无响应行为均受到多源复杂因素影响。抽样调查中,不仅要在设计阶段采用科学的抽样方案和技术以降低抽样误差,而且要在调查执行阶段充分关注受访者无响应带来的深远影响。受访者对调查问卷或者问题的无响应,主要有两个来源,一是随机无响应,二是主观无响应。随机无响应可以通过抽样设计做出积极的改进和规避,而主观无响应可能来自受访者对调查主题的敏感程度、隐私保护意识或者对调查本身的价值判断。同时,样本群体的复杂度、样本单元的流动性、调查环境等外部要素也对无响应问题有较大影响。因此,仅仅采用问卷回收率、响应率等传统指标来评估抽样调查的质量和数据质量显然是不够的。来自流动人口的抽样调查具有典型性。流动人口是在中国固定户籍制度背景下产生的一个特殊群体,为中国经济社会的发展做出了重大的贡献。流动人口的抽样调查受到复杂的社会经济因素影响,无响应问题比较突出,导致调查数据不可避免地出现缺失,影响了数据质量。本文以流动人口抽样调查中出现的项目无响应问题为切入点,深入分析了抽样调查中的无响应问题,对主观无响应的成因进行了剖析,阐述了由此造成的数据缺失的机理和数据插补方法,并以流动人口调查数据为研究对象,对流动人口抽样调查中的代表性响应进行了测度,以达到评估调查质量的目的,同时就如何处理流动人口抽样调查中的项目无响应问题进行深入研究。第二章是本文的逻辑起点,对抽样调查中的无响应问题造成的数据缺失的机理进行了详细分析,为无响应问题的研究提供理论基础。第三章是项目无响应的处理方法研究,为项目无响应问题的处理提供方法论支持。第四章阐述了我国流动人口抽样调查的方案设计,是研究流动人口抽样调查中的项目无响应问题的基础,从抽样设计的角度反思出现项目无响应的原因。第五章是流动人口调查中项目无响应插补的实证研究,从实证角度测度流动人口抽样调查中的项目无响应问题,并基于单插值方法、多重插值方法和结构逻辑插值方法对流动人口抽样调查中的缺失数据进行插值;第六章是对流动人口抽样调查中项目无响应问题研究的相关结论、政策建议和研究展望。本文在抽样调查中的无响应问题及数据插补方法等方面,主要做了以下四个方面的工作:第一,深入探究了抽样调查中的无响应问题引致的数据缺失的机理。调查中受访者的无响应行为必然引起数据缺失,解决数据缺失问题首先是要识别引起受访者无响应的数据缺失机制。本文详细分析了完全随机缺失(missing-completely-at-random,MCAR)、随机缺失(missing-at-random,MAR)和非随机缺失(not-missing-at-random,NMAR)三种数据缺失机制,这是后文进行无响应问题研究的理论基础。无响应产生的后果是使总体特征估计量有偏,本文将无响应与抽样理论相结合探究了无响应对总体特征估计量的影响。第二,进一步完善了R统计量对抽样调查质量评估的理论基础和应用方法,设计了抽样调查质量评价的R算法,构建了抽样调查评估的一类新体系。关于抽样调查质量的探讨,现有文献主要集中在使用响应率对抽样调查质量进行评估,响应率越高,响应样本的代表性越强。但相关研究表明,响应率和响应样本的代表性之间没有必然关系,而R统计量可以测度响应样本的代表性,可以在更深入和细致的问题层面描述和估计调查质量。本文将R统计量视为响应率的重要补充指标,对测度响应代表性的R统计量和偏R统计量进行了扩展,构造出R统计量的标准误差和置信区间,最后基于2017年的中国流动人口动态监测数据进行了实证分析,完善了R统计量的落地与应用。本文同时编写了实现R统计量和偏R统计量的计算机程序。值得说明的是,表示响应代表性的R统计量和偏R统计量是对现有文献的统一整合,R统计量的标准误差和置信区间的计算是本文完成的对R统计量测度的重要补充。第三,对项目无响应的处理方法进行了系统研究。插值方法是处理项目无响应的常用方法,首先详细分析了插值方法的理论机制,然后对现有的单插值、EM插值、多重插值和分数插值方法进行了系统比较,并探讨了现有插值方法的适用条件和优缺点,最后提出了结构逻辑插值方法。本文设计的结构逻辑插值方法是包含分类插值、关联插值和多重取优插值的一个综合插值方法;结构逻辑插值方法是问题导向的插值方法;结构逻辑插值方法是抽样学习的一个方法,通过机器学习中的算法学习到分类规则、关联规则、多重取优规则,或更具体地说,通过抽样学习的方法,学习到个体的群特征、统计特征和个体行为特征,并基于这些特征对缺失样本进行插值,本文根据这个理论构建了项目无响应插值的完整体系。第四,从实证角度对流动人口调查中的项目无响应问题进行了测度,从而评估无响应对流动人口抽样调查质量的影响,然后基于单插值方法、多重插值方法和结构逻辑插值方法对影响流动人口居留意愿中的缺失数据进行了插值,并从不同角度对各种插值方法的效果进行了评估。具体来说,除了使用传统的方差比较的方法及将插值后的数据与原始数据进行对比的方法比较各种插值方法的效果外,本文提出在结构逻辑插值分析中使用Kappa一致性分析用于比较各种插值方法的优劣。抽样调查中的无响应问题直接导致不同程度的数据缺失,在不同程度上影响了抽样调查的质量。本文的创新之处在于完善R统计量的理论基础和算法设计,将R统计量作为响应率的补充指标来评估抽样调查中的无响应问题,从而评估抽样调查的质量,进一步改进了多重插值方法,最后提出新的结构逻辑插值方法对抽样调查中的项目无响应问题进行插值和评估。