论文部分内容阅读
摘 要:以2010年我国31个省市自治区的规模以上工业企业总产值统计数据为基础,运用PPS抽样、分层抽样和简单随机抽样等3种抽样方法,抽取了9个地区作为研究样本,估计了2011年我国工业总产值、平均工业总产值以及抽样方差,并计算了95.45%概率保证程度下的置信区间,同时,比较了PPS抽样与分层抽样和简单随机抽样的效果。结论表明,在我国工业总产值的抽样估计中,由于各地区的工业总产值差异较大,PPS抽样的效果优于分层抽样,同时也优于简单随机抽样。
关键词:抽样方法;效果比较;工业总产值
中图分类号:F2
文献标识码:A
文章编号:1672-3198(2013)24-0022-03
1 抽样方法简介
1.1 PPS抽样及其估计量
1.1.1 PPS抽样概述
PPS抽样法(Probability Proportionate to Size Sampling)又称按规模大小成比例的概率抽样或按容量概率抽样(PPS)法。它是多项抽样的一种,多项抽样是一种不等概抽样,设Z1,Z2,…,Zn是一组概率,按这组概率对总体中的N个单元进行放回抽样,每次抽中第i个单元的概率为Zi,独立地进行这样的抽样n次,则这种不等概抽样为多项抽样。尤其在每个有说明其大小或规模的度量Mi,则Zi可取Zi=MiM0,这时,每个单元在每次抽选中入样的概率与其单元规模的大小成比例。这种抽样方法被称为PPS抽样。
1.1.2 PPS抽样的实施方法
PPS抽样的实施方法主要有累积总和法、拉希里方法、规模累积等距抽选的方法、分裂法。本文拟采用规模累积等距抽选的方法。规模累积等距抽选方法的基本原理是:设总体单元数为N,其规模度量分别为M1,M2,…,Mn,假定Mi都是整数,且有∑ni=1Mi=M0,这样总共有M0个代码,每个总体单元都有一个代码的范围,其中第i个单元相应地有Mi个代码。若欲抽取的样本容量为n,则先求得等距抽样的间隔K=M0n,然后在1~K之间随机等概率抽取一个数,假设为r,则r所在的单元代码区间相应的单元即为被抽中的单元。以后每隔K个度量值,即:r+K,r+2K,r+3K,…,r+(n-1)K等数字所在的单元代码区间的相应单元,即为被抽中的单元。这种抽样方法的特点是当所有单元的度量Mi2K时,则第i个单元肯定会被重复抽中。这种方法抽取样本比较容易,每个单元的被抽中概率与Mi的大小成比例。
1.1.3 Hensen-Hurvitz估计量
(1)总体总量的估计1943年,汉森和赫维茨对PPS抽样提出了估计总体总量的估计量为:
3 PPS抽样与分层抽样、简单随机抽样的效果比较
3.1 总体均值的估计效果比较
将上述3种抽样方法估计的总体均值结果进行汇总,如表3所示。
从表3可知,在不考虑抽样调查费用的情况下,利用PPS抽样方法估计的总体均值为27170.16,比分层抽样和简单随机抽样的总体均值更接近于我国各地区的实际平均工业总产值27234.48,且PPS抽样估计的抽样平均误差是三者中最小的,而简单随机抽样估计的抽样平均误差是最大的。窄的置信区间比宽的置信区间能提供更多的有关总体参数的信息,在样本容量和置信水平相同的情况下(样本容量都是9个地区,置信水平都为95.45%),利用PPS抽样方法计算得到的置信区间最窄。因此,在我国工业总产值的估计中,对于总体均值的估计,PPS抽样的效果优于分层抽样,更优于简单随机抽样。
3.2 总体总量的估计效果比较
同理,将上述3种抽样方法估计的总体总量结果进行汇总,如表4所示。
从表4可知,在不考虑抽样调查费用的情况下,利用PPS抽样方法估计的总体总量为842274.80,比分层抽样和简单随机抽样的总体均值更接近于我国的实际工业总产值844268.78,且PPS抽样估计的抽样平均误差是三者中最小的,而简单随机抽样估计的抽样平均误差是最大的,同时,在其他条件相同的情况下,利用PPS抽样方法计算得到的置信区间是最窄。因此,在我国工业总产值的估计中,对于总体总量的估计,PPS抽样的效果优于分层抽样,更优于简单随机抽样。
4 结论
利用PPS抽样方法、分层抽样方法和简单随机抽样方法,对2011年我国31个省市自治区规模以上工业企业总产值进行估计,同时,比较3种抽样方法的估计效果,可以看出,在不考虑抽样调查费用的情况下,无论是总体均值还是总体总量的估计,PPS抽样的效果优于分层抽样,更优于简单随机抽样。所以,对于总体单元标志值之间差异非常大的总体进行抽样估计时,运用PPS抽样可以得到更好的估计效果。
参考文献
[1]倪佳勋.抽样调查[M].桂林:广西师范大学出版社,2002.
[2]张玉.PPS抽样在我国出口贸易预测中的应用[J].经济研究导刊,2011,(2).
[3]李培军.不等概率抽样估计的原理与应用[J].辽宁师范大学学报(自然科学版),2004,(12).
[4]李雪波.基于PPS抽样方法的我国建筑业利润总额实证研究[J].经济视角,2009,(12).
[5]李序颖.PPS抽样——一种有效的水路运输量抽样方法[J].数理统计与管理,1995,(3).
[6]张勇,曾玉平,汪飞星.中国农产量调查中几种可行的PPS系统抽样[J].统计与信息论坛,2005,(3).
关键词:抽样方法;效果比较;工业总产值
中图分类号:F2
文献标识码:A
文章编号:1672-3198(2013)24-0022-03
1 抽样方法简介
1.1 PPS抽样及其估计量
1.1.1 PPS抽样概述
PPS抽样法(Probability Proportionate to Size Sampling)又称按规模大小成比例的概率抽样或按容量概率抽样(PPS)法。它是多项抽样的一种,多项抽样是一种不等概抽样,设Z1,Z2,…,Zn是一组概率,按这组概率对总体中的N个单元进行放回抽样,每次抽中第i个单元的概率为Zi,独立地进行这样的抽样n次,则这种不等概抽样为多项抽样。尤其在每个有说明其大小或规模的度量Mi,则Zi可取Zi=MiM0,这时,每个单元在每次抽选中入样的概率与其单元规模的大小成比例。这种抽样方法被称为PPS抽样。
1.1.2 PPS抽样的实施方法
PPS抽样的实施方法主要有累积总和法、拉希里方法、规模累积等距抽选的方法、分裂法。本文拟采用规模累积等距抽选的方法。规模累积等距抽选方法的基本原理是:设总体单元数为N,其规模度量分别为M1,M2,…,Mn,假定Mi都是整数,且有∑ni=1Mi=M0,这样总共有M0个代码,每个总体单元都有一个代码的范围,其中第i个单元相应地有Mi个代码。若欲抽取的样本容量为n,则先求得等距抽样的间隔K=M0n,然后在1~K之间随机等概率抽取一个数,假设为r,则r所在的单元代码区间相应的单元即为被抽中的单元。以后每隔K个度量值,即:r+K,r+2K,r+3K,…,r+(n-1)K等数字所在的单元代码区间的相应单元,即为被抽中的单元。这种抽样方法的特点是当所有单元的度量Mi
1.1.3 Hensen-Hurvitz估计量
(1)总体总量的估计1943年,汉森和赫维茨对PPS抽样提出了估计总体总量的估计量为:
3 PPS抽样与分层抽样、简单随机抽样的效果比较
3.1 总体均值的估计效果比较
将上述3种抽样方法估计的总体均值结果进行汇总,如表3所示。
从表3可知,在不考虑抽样调查费用的情况下,利用PPS抽样方法估计的总体均值为27170.16,比分层抽样和简单随机抽样的总体均值更接近于我国各地区的实际平均工业总产值27234.48,且PPS抽样估计的抽样平均误差是三者中最小的,而简单随机抽样估计的抽样平均误差是最大的。窄的置信区间比宽的置信区间能提供更多的有关总体参数的信息,在样本容量和置信水平相同的情况下(样本容量都是9个地区,置信水平都为95.45%),利用PPS抽样方法计算得到的置信区间最窄。因此,在我国工业总产值的估计中,对于总体均值的估计,PPS抽样的效果优于分层抽样,更优于简单随机抽样。
3.2 总体总量的估计效果比较
同理,将上述3种抽样方法估计的总体总量结果进行汇总,如表4所示。
从表4可知,在不考虑抽样调查费用的情况下,利用PPS抽样方法估计的总体总量为842274.80,比分层抽样和简单随机抽样的总体均值更接近于我国的实际工业总产值844268.78,且PPS抽样估计的抽样平均误差是三者中最小的,而简单随机抽样估计的抽样平均误差是最大的,同时,在其他条件相同的情况下,利用PPS抽样方法计算得到的置信区间是最窄。因此,在我国工业总产值的估计中,对于总体总量的估计,PPS抽样的效果优于分层抽样,更优于简单随机抽样。
4 结论
利用PPS抽样方法、分层抽样方法和简单随机抽样方法,对2011年我国31个省市自治区规模以上工业企业总产值进行估计,同时,比较3种抽样方法的估计效果,可以看出,在不考虑抽样调查费用的情况下,无论是总体均值还是总体总量的估计,PPS抽样的效果优于分层抽样,更优于简单随机抽样。所以,对于总体单元标志值之间差异非常大的总体进行抽样估计时,运用PPS抽样可以得到更好的估计效果。
参考文献
[1]倪佳勋.抽样调查[M].桂林:广西师范大学出版社,2002.
[2]张玉.PPS抽样在我国出口贸易预测中的应用[J].经济研究导刊,2011,(2).
[3]李培军.不等概率抽样估计的原理与应用[J].辽宁师范大学学报(自然科学版),2004,(12).
[4]李雪波.基于PPS抽样方法的我国建筑业利润总额实证研究[J].经济视角,2009,(12).
[5]李序颖.PPS抽样——一种有效的水路运输量抽样方法[J].数理统计与管理,1995,(3).
[6]张勇,曾玉平,汪飞星.中国农产量调查中几种可行的PPS系统抽样[J].统计与信息论坛,2005,(3).