论文部分内容阅读
抽样调查作为搜集信息的一种方法,凭借其准确度高、成本低、效率高等优点,越来越多地被政府部门、商业公司、研究机构所使用。但是,样本中无回答数据,或称缺失数据的存在,不但给分析数据带来一定的困难,并且影响对于总体特性的估计的准确性。 在实际处理缺失数据时,常用的方法有四大类,即删除不完整记录法、加权法、插补法和模型法。对于项目无回答,一般选用插补的方法来处理。经过国内外专家,50多年的研究,插补的方法不断发展完善。其中,最常用的一类插补方法是热卡插补法(Hot deck Imputation),著名的CPS hot deck已经风行数十年。热卡插补法也已经发展了许多版本,比如,序列热卡法、随机热卡法、最近距离热卡法等等。但是最近几年,在插补的方式上,热卡插补法没有进一步的发展,学者们的研究更多集中在插补后数据方差估计方面。比如Rao和Shao(1992)在原始的jackknife方差估计方法的基础上,提出了调整后的jackknife方法,解决了原始方法低估方差的问题。 在国内,已有一些学者对插补方法,多重插补方法进行了研究和讨论,但是还没有研究人员,专门针对热卡插补这种方法进行集中研究,尤其是没有将重点放在插补后数据的方差估计方面。 出于对于这种现状的考虑,选择了“热卡插补法”作为硕士毕业论文的题目。在广泛研究国内外文献的基础上,对于热卡插补法进行了系统的总结,做了详实的分析和解释,并且使用模拟数据进行了实证研究。 热卡插补法是利用最具同构型或同属性的被访者资料,作为缺失数据的参考答案,是目前最受青睐的一种插补模式。美国人口普查局(Current PopulationSurvey,CPS)和各种普查数据,广泛应用热卡插补法处理缺失值,CPS hot-deckimputation可说是目前社会科学调查研究处理缺失数据中,最成熟的一种方法。热卡插补法是依照辅助变量的不同条件,将未出现缺失值的观察值分类成若干的“插补单元”,每一个出现缺失值的观察值,依据辅助变量的条件,从相对应的插补单元中找寻一个观察体,以其观测所得的变量数值代替缺失值。简言之,即是将已回答的数据划分为若干区域,再从某一区中抽取一个值替代缺失值。抽取的这个替代值,称为赋值元素(donor)。 不同的选择赋值元素的方法会有不同的Hot Deck插补方法。序列热卡插补法是使用同一个插补单元中,最后一个被计算机读取的数值进行插补;随机热卡插补法,首先从插补单元中选出拥有被插补元素所缺失的全部信息的样本元素,再从中随机抽取出一个作为赋值元素;最近距离热卡插补法,使用这种方法需要首先定义一个观测样本元素之间距离的测量方法,然后,用与被插补元素距离最近的样本元素的值进行插补,最近距离的确定需要通过距离函数;分数热卡插补法(fractional hot deck imputation)是一种基于模型的热卡插补法,这种方法假设插补单元中各个元素被用作赋值元素进行插补的概率是相同的。本文的重点内容,是从理论上讨论热卡插补法的实现过程,对各种热卡插补法的特点进行比较和总结,以及在每种热卡插补法的框架之下,给出插补后数据方差估计的方法。主要以较为复杂的最近距离热卡法和分数插补法为例,来研究插补后估计量的偏差,原始jackknife方差对方差的低估,以及调整后jackknife的特性。 本文的实证分析部分,使用模拟数据对前面讨论的热卡插补法,进行实证研究。以较为常用的随机热卡插补法和最近距离插补法为例,分别讨论插补的结果,以及不同方法下不同的方差估计方法的结果。在实证研究中,插补后的数据基本上保持了回答样本的分布。插补后的数据与原来有回答样本的分布能够保持一致,这一点是随机热卡插补和最近距离热卡插补非常优良的性质,也是做这个实证分析,希望看到的结果。在MCAR和MAR的假设下,我们希望插补后的数据与插补前的数据有相同的分布。从这个角度说,热卡插补方法在保持原有回答数据分布方面是优于均值插补的。因为均值插补往往会在在均值的位置上形成一个“峰”,从而改变原来的分布。 实证分析的另一个重点,实现原始的jackknife和调整后的jackknife方法对于插补后数据的方差估计,并且验证第二章中关于这两种方差估计方法的比较。随着数据中缺失比率的增大,插补后均值的变化不大,但是方差变化比较大。模拟实证研究的结果,跟理论上vSRSWR=vJACK<vADJJACK的结果是一致的。这正是为什么要在原始的jackknife方差估计方法的基础上,进行调整的原因:理论上,插补后的方差会增大,但是传统的方差估计方法,以及原始的jackknife方法都没有将增大的部分反映出来,也就是说,会低估方差,造成较小的置信区间。而调整后的方差能够反映出方差的增量,因而是更加精确的方差估计方法。上述模拟的结果非常好的验证了这一点,相对于原始的jackknife方差,调整后的jackknife方差明显增大。