论文部分内容阅读
摘 要:本文采用PPS抽样、简单随机抽样、分层抽样、比率抽样以及回归估计5种抽样方法,对2015年我国个体就业人数进行了估计,通过比较发现,其中PPS抽样的估计精度最高,效果最好,其次是分层抽样,再次为比率估计和回归估计,但两者的精度相差不大,简单随机抽样估计精度最差。
关键词:PPS抽样 简单随机抽样 分层抽样 整群抽样 比率抽样
PPS抽样、简单随机抽样、分层抽样、比率抽样以及回归估计5种抽样方法在统计抽样调查过程中一直被广泛应用,在现有的文献中,很多学者最注重用的一般为PPS抽样法,鲜有人专门去研究5种抽样估计方法同时在具体问题中的估计精度并从实践的角度加以分析比较。本文选用了5种抽样估计方法对2015年我国个体就业人数进行估计并对其估计结果的精度作了一简要比较。
一、各估计方法的实施
1.简单随机抽样
本文中,估计2015年31个省市的个体就业人数是以省(市、自治区)作为基本的抽样单位,从我国31个省(市、自治区)中按照30%的一般经验比例抽取样本,则N=31,n=9,即需要抽取9个样本单位。对我国31个省(市、自治区)分别按1-31顺序进行编号得出抽样框,借助随机数生成器在1~31个总体单位中,基于不重复抽样的原则下抽取的9个样本单位为:11、28、18、19、29、22、24、8和3,即浙江、甘肃、湖南、广东、青海、重庆、贵州、黑龙江和河北9个省市被选为样本,则具体估计过程如下:
总体总量的估计值为:=31424=13147
总体总量的方差估计:
抽样极限误差为:
抽样估计精度为:
95%置信区间为:
由于2015年我国31个省市的实际个体就业人数为11682.1万人,位于置信区间之内,因此可以用该方法进行估计,但从抽样估计精度来看,简单随机抽样法的估计精度较低。
2.PPS抽样
PPS抽样方法具体包括规模累计总和法(代码法)、拉希里方法以及规模累计等距抽取法,考虑到数据特点,本文宜采用规模累计等距法。利用规模累积等距法,以2014年我国分地区个体就业人数作为规模度量,总体的总规模即全国的个体就业人数为,每次抽样中第i个单位,被抽中的概率表示为,则。经过计算可知:=10585,,然后在1~1176之间按照等概率原则产生一个随机值,作为第一个抽样值。利用随机数据生成器生成的随机数为抽取出r为38,处于青海的代码范围内,因此青海作为抽中的样本。根据规模累积等距抽选的方法,其他的8个样本分别为1214、2390、3566、4742、5918、7094、8270以及9446。所以,抽取的9个样本分别为青海、山西、吉林、江西、辽宁、四川、浙江、山东以及湖北。具体数据见表1。
3.分层抽样
根据我国31个省(市、自治区)个体就业人数差异程度,由SPSS分类结果可知应将其划分为三个层次:第一层:西藏、青海、上海、宁夏、天津、海南、北京、新疆、甘肃、重庆、贵州、山西、福建、陕西、广西、吉林、黑龙江、内蒙古、云南、江西和湖南21个省市;第二层:安徽、辽宁、河北、四川、河南、浙江和江苏7个省市;第三层:山东、湖北以及广东3个省市。
按等比例分层抽样公式抽取各层单位,在第一层中抽取6个样本单位,在第二层中抽取2个样本单位,在第三层中抽取1个样本单位。再在各个层中利用随机数表抽取,抽中的样本单位地区如表2所示。
4.比率估计
对2015年我国分地区的个体就业人数进行估计时,选取2015年分地区年末人口总数作为辅助变量,通过SPSS软件进行相关分析得,两者的Pearson相关系数,表明两个变量之间具有较强的相关性。根据简单随机抽样,通过随机数表从全国31个总体单位中抽取8个单位组成样本。其中辅助变量的观察值表示为(分地区年末人口总数),主变量的观察值表示为(分地区个体就业人数),具体数据见表3。
5.回归估计
回归估计是通过对调查变量Y以及该变量有线性关系的辅助变量X建立回归方程,然后运用回归方程对总体指标进行判断、估计的方法。在本文中,根据简单随机抽样,通过随机数表从全国31个总体单位中抽取9个单位组成样本,借助随机数表在1~31个总体单位中,基于不重復抽样的原则下抽取的9个样本单位为:5、11、14、15、24、20、23、18以及7,即内蒙古、浙江、江西、山东、贵州、广西、四川、湖南以及吉林9个省市被选为样本,其中辅助变量的观察值表示为(分地区年末人口总数),主变量的观察值表示为(分地区个体就业人数),具体估计如下所示:
二、不同抽样估计方法效果的比较结果
通过选取简单随机抽样、PPS抽样、分层抽样、比率估计和回归估计分别对我国个体就业人数总量、均值及方差进行估计,具体数据如表4所示。
在我国2015年个体就业人数的估计中,PPS抽样的估计精度最高,效果最好,为96.1%,其次是分层抽样,为83.1%,再次为比率估计和回归估计,分别为79.9%和79.7%,两者相差并不大,而简单随机抽样估计精度最差,仅为55.8%。因此,建议使用除简单抽样以外的其他4种抽样方法,特别是PPS抽样法。
参考文献:
[1]艾小青.PPS抽样下比率估计量的建构与应用[J].统计与信息论坛,2015
[2]倪家勋.抽样调查[M].桂林:广西师范大学出版社,2002
[3]宋新民,李金良.抽样调查技术[M].北京;中国林业出版社,2007
[3]王 鹏.PPS抽样在我国工业总产值估计中的应用-抽样效果的比较[J].现代商贸工业,2013
[4]周庆元.PPS和简单随机抽样估计效率的实证检验[J].统计与决策,2014
[5]中华人民共和国国家统计局《中国统计年鉴》[M].北京:中国统计出版,2015
关键词:PPS抽样 简单随机抽样 分层抽样 整群抽样 比率抽样
PPS抽样、简单随机抽样、分层抽样、比率抽样以及回归估计5种抽样方法在统计抽样调查过程中一直被广泛应用,在现有的文献中,很多学者最注重用的一般为PPS抽样法,鲜有人专门去研究5种抽样估计方法同时在具体问题中的估计精度并从实践的角度加以分析比较。本文选用了5种抽样估计方法对2015年我国个体就业人数进行估计并对其估计结果的精度作了一简要比较。
一、各估计方法的实施
1.简单随机抽样
本文中,估计2015年31个省市的个体就业人数是以省(市、自治区)作为基本的抽样单位,从我国31个省(市、自治区)中按照30%的一般经验比例抽取样本,则N=31,n=9,即需要抽取9个样本单位。对我国31个省(市、自治区)分别按1-31顺序进行编号得出抽样框,借助随机数生成器在1~31个总体单位中,基于不重复抽样的原则下抽取的9个样本单位为:11、28、18、19、29、22、24、8和3,即浙江、甘肃、湖南、广东、青海、重庆、贵州、黑龙江和河北9个省市被选为样本,则具体估计过程如下:
总体总量的估计值为:=31424=13147
总体总量的方差估计:
抽样极限误差为:
抽样估计精度为:
95%置信区间为:
由于2015年我国31个省市的实际个体就业人数为11682.1万人,位于置信区间之内,因此可以用该方法进行估计,但从抽样估计精度来看,简单随机抽样法的估计精度较低。
2.PPS抽样
PPS抽样方法具体包括规模累计总和法(代码法)、拉希里方法以及规模累计等距抽取法,考虑到数据特点,本文宜采用规模累计等距法。利用规模累积等距法,以2014年我国分地区个体就业人数作为规模度量,总体的总规模即全国的个体就业人数为,每次抽样中第i个单位,被抽中的概率表示为,则。经过计算可知:=10585,,然后在1~1176之间按照等概率原则产生一个随机值,作为第一个抽样值。利用随机数据生成器生成的随机数为抽取出r为38,处于青海的代码范围内,因此青海作为抽中的样本。根据规模累积等距抽选的方法,其他的8个样本分别为1214、2390、3566、4742、5918、7094、8270以及9446。所以,抽取的9个样本分别为青海、山西、吉林、江西、辽宁、四川、浙江、山东以及湖北。具体数据见表1。
3.分层抽样
根据我国31个省(市、自治区)个体就业人数差异程度,由SPSS分类结果可知应将其划分为三个层次:第一层:西藏、青海、上海、宁夏、天津、海南、北京、新疆、甘肃、重庆、贵州、山西、福建、陕西、广西、吉林、黑龙江、内蒙古、云南、江西和湖南21个省市;第二层:安徽、辽宁、河北、四川、河南、浙江和江苏7个省市;第三层:山东、湖北以及广东3个省市。
按等比例分层抽样公式抽取各层单位,在第一层中抽取6个样本单位,在第二层中抽取2个样本单位,在第三层中抽取1个样本单位。再在各个层中利用随机数表抽取,抽中的样本单位地区如表2所示。
4.比率估计
对2015年我国分地区的个体就业人数进行估计时,选取2015年分地区年末人口总数作为辅助变量,通过SPSS软件进行相关分析得,两者的Pearson相关系数,表明两个变量之间具有较强的相关性。根据简单随机抽样,通过随机数表从全国31个总体单位中抽取8个单位组成样本。其中辅助变量的观察值表示为(分地区年末人口总数),主变量的观察值表示为(分地区个体就业人数),具体数据见表3。
5.回归估计
回归估计是通过对调查变量Y以及该变量有线性关系的辅助变量X建立回归方程,然后运用回归方程对总体指标进行判断、估计的方法。在本文中,根据简单随机抽样,通过随机数表从全国31个总体单位中抽取9个单位组成样本,借助随机数表在1~31个总体单位中,基于不重復抽样的原则下抽取的9个样本单位为:5、11、14、15、24、20、23、18以及7,即内蒙古、浙江、江西、山东、贵州、广西、四川、湖南以及吉林9个省市被选为样本,其中辅助变量的观察值表示为(分地区年末人口总数),主变量的观察值表示为(分地区个体就业人数),具体估计如下所示:
二、不同抽样估计方法效果的比较结果
通过选取简单随机抽样、PPS抽样、分层抽样、比率估计和回归估计分别对我国个体就业人数总量、均值及方差进行估计,具体数据如表4所示。
在我国2015年个体就业人数的估计中,PPS抽样的估计精度最高,效果最好,为96.1%,其次是分层抽样,为83.1%,再次为比率估计和回归估计,分别为79.9%和79.7%,两者相差并不大,而简单随机抽样估计精度最差,仅为55.8%。因此,建议使用除简单抽样以外的其他4种抽样方法,特别是PPS抽样法。
参考文献:
[1]艾小青.PPS抽样下比率估计量的建构与应用[J].统计与信息论坛,2015
[2]倪家勋.抽样调查[M].桂林:广西师范大学出版社,2002
[3]宋新民,李金良.抽样调查技术[M].北京;中国林业出版社,2007
[3]王 鹏.PPS抽样在我国工业总产值估计中的应用-抽样效果的比较[J].现代商贸工业,2013
[4]周庆元.PPS和简单随机抽样估计效率的实证检验[J].统计与决策,2014
[5]中华人民共和国国家统计局《中国统计年鉴》[M].北京:中国统计出版,2015