论文部分内容阅读
摘 要:本文以2012年我国31个省市自治区的规模以上建筑业企业单位数为基础,运用PPS抽样的代码法对总体各个单元进行编码,并在此基础上用等距抽样方法抽取了10个样本地区,以此估计2012年我国建筑业总值,并给出95%置信度下的置信区间,实证分析表明:该抽样方法得到估计值与真实值较为接近,真实值落也在置信区间内。
关键词:不等概抽样;PPS抽样;等距抽样;建筑业总值
建筑业是我国经济发展的支柱产业之一,它的健康发展对我国经济的快速发展有着举足轻重的作用。为了解我国建筑业的总体发展情况,可采用抽样调查的方法对我国31个省市自治区建筑业总值进行研究。最简单的抽样方法是简单随机抽样方法(simple random sampling),该方法具有总体中每个单元进入样本的概率严格相等的优点,是一种等概率抽样方法。但是,在总体单元之间差异非常大时,简单随机抽样效果并不是很好。而我国各个地区建筑业企业单位数存在较大差异,所以,本文运用PPS抽样方法对我国建筑业总值进行抽样研究。
1.抽样方法简介
不等概率抽样(sampling with unequal probabilities),是指在抽样中每个单元都具有一定的入样概率,但不是严格相等。它分为放回与不放回两种情况。最常用的放回不等概抽样是PPS抽样(probability proportional to size),它是一种与规模大小成比例的抽样方法,包括代码法和拉稀里(Lahiri)法两种实施办法。在PPS抽样中,一般把Mi作为总体中第i个单元的大小或者规模的度量,M0为总体各单元规模的累积和,即总体的规模大小,若在每次抽样中第i个单元被抽中的概率用Zi表示,则有以下式子成立:Zi=MiM0。
一般情况下,放回抽样比不放回抽样的效率低,因为在放回抽样的实施过程中,某个单元有可能被抽中的多次,而从直观上看,在抽样调查过程中,没有必要对同一个单元调查多次。
等距抽样是一种先将总体按某种顺序进行排序,并确定抽样间距k,并在1~k范围内产生一个随机起点r,然后按照固定间隔k依次选取其他单元的编号,直到抽满n个为止,这样最终入样本编号为:r+(j-1)k,j=1,2,…,n,具有简单易行和使得样本在总体中分布更均匀的优点。一般情况下,等距抽样方法是一种不放回的抽样方法。因此,本文考虑在PPS抽样的基础上,采用等距抽样方法进行抽样研究。这种方法抽取样本比较容易,并且每个单元的被抽中概率与Mi的大小成比例,具有等距抽样的优点。
2.抽样实施方法
假设总体单元数目为N,总体中第i个单元规模大小的为Mi,欲抽取n个样本,则具体的实施步骤为:先用PPS抽样中的代码法,赋予每个单元与Mi相等的代码数,将代码数进行累积,直至M0=∑Ni=1Mi;其次,确定等距抽样的间隔k=M0n;再次,在1~k之间产生一个随机起点,假设为r,则r所在的单元代码区间相应的单元为被抽中的单元;最后,找出r+(j-1)k,j=1,2,…,n所在的代码区间,则相应单元为被抽中的单元。这种抽样方法的特点是当所有单元的度量Mik时,则第i个单元有可能被重复抽中;当Mi>2k时,则第i个单元肯定会被重复抽中。
3.汉森—赫维茨估计量
汉森—赫维茨(Hansen-Hurwitz)估计量指是采用有放回不等概抽样抽取样本容量n时,总体总值的估计量为样本所有yiZi的平均,即HH=1n∑ni=1yizi,它是总体总值的无偏估计量。
如果采用的PPS抽样,即Zi=MiM0,则
HH=1n∑ni=1yizi=M0n∑ni=1yiMi(1)
總体总值估计量方差为:
VHH=1n∑ni=1ZiYiZi-Y2.
总体总值估计量方差的无偏估计量为:
vHH=1n1n-1∑ni=1yizi-HH2.(2)
4.样本的抽取
为了估计2012年我国建筑业生产总值这一参数,本文以2012年我国31个省、市、自治区的规模以上建筑业企业单位数作为衡量各个地区规模大小的标准,运用PPS抽样和等距抽样方法,抽取10个样本地区,以此估计2012年我国建筑业生产总值,具体抽样步骤如下:
(1)以2012年我国31个省、市、自治区的规模以上建筑业企业单位数作为规模Mi,并进行累计,具体如表1所示。
(2)由于M0=∑Ni=1Mi=75280,因而得出抽样间隔
k=M0n=7528010=7528.
(3)在1~k范围内产生一个随机起点r,假设为r=4875,处于河北代码范围内,故河北进入样本。
(4)根据等距抽样的入样代码:4875+(j-1)7528,j=1,2,…,10,确定进入样本的10个地区。带入数值得,10个入样代码依次为4875,12385,19913,27441,34969,
42497,50025,57553,65081,72609。由表1给出的代码范围可知,进入样本的10个地区依次为河北,辽宁,上海,江苏,浙江,江西,河南,广东,重庆,甘肃。该入样地区2012年建筑业总值(亿元)依次为1491.97,1625.42,757.01,3213.48,
1978.30,1114.39,1654.64,1890.90,994.17,529.85。
表1 以2012年我国各地区企业单位数为规模的代码法
地区2012年企业单位数(Mi)∑Mi代码范围地区2012年企业单位数(Mi)∑Mi代码范围
北京317831781~3178湖北27745559852825~55598 天津153547133179~4713湖南19065750455599~57504
河北234770604714~7060廣东41446164857505~61648
山西201690767061~9076广西10536270161649~62701
内蒙古82899049077~9904海南1206282162702~62821
辽宁5547154519905~15451重庆23346515562822~65155
吉林16531710415452~17104四川31936834865156~68348
黑龙江20381914217105~19142贵州5586890668349~68906
上海29632210519143~22105云南20807098668907~70986
江苏87433084822106~30848西藏1757116170987~71161
浙江55503639830849~36398陕西12497241071162~72410
安徽25393893736399~38937甘肃11087351872411~73518
福建23874132438938~41324青海3677388573519~73885
江西15074283141325~42831宁夏5087439373886~74393
山东56614849242832~48492新疆8877528074394~75280
河南43325282448493~52824
5.建筑业总值参数的估计
由入样概率Zi=MiM0,得出10个样本地区的入样概率分别为:河北0.03118,辽宁0.07368,上海0.03936,江苏0.11614,浙江0.07372,江西0.02002,
河南0.05755,广东0.05505,重庆0.03100,甘肃0.01472。以这10个样本地区的建筑业总值为样本数据,运用汉森—赫维茨估计量,对2012年的我国建筑业总值参数进行估计,由公式(1)得:
HH=1n∑ni=1yizi=110(1491.970.03118+1625.420.07368+…+529.850.01472)=33048.64.
由公式(2)得,总值方差估计量的估计为:
vHH=1n1n-1∑ni=1yizi-HH2=110×9(1491.970.03118-33048.64)2+(1625.420.07368-33048.64)2+…+(529.850.01472-33048.64)2=12665212.
在置信度为95%时,z0.025=1.96,置信区间为
HH±zα2VHH=33048.64±1.9612665212=[26073.35,40023.94].由于2012年我国31个省市自治区建筑业总值为35694.94万元,位于该置信区间内,这说明,该抽样方法可以运用于我国建筑业总值参数的估计,抽样效果较好。
5.结论
本文通过PPS抽样方法和等距抽样方法对2012年我国31个省市自治区建筑业总值的不等概率抽样,抽取了10个样本地区,并以此样本数据为基础运用汉森—赫维茨估计量得出2012年我国建筑业总值的估计值为
330486.4亿元,置信度为95%的置信区间为[26073.35,40023.94],而2012年我国建筑业总值真实值为35694.94万元,位于置信区间内。这表明,这种PPS抽样和等距抽样相结合的抽样方法,可以应用于我国建筑业总值参数的估计中,该抽样方法即保证了总体中规模大的样本被抽中的概率大,规模小的样本被抽中的概率大,提高了抽样样本地区的代表性,又保留了等距抽样的优点。(作者单位:河池学院数学与统计学院)
基金项目:河池学院统计学重点学科建设项目(2013[3])
参考文献:
[1] 金勇进,杜子芳,蒋妍.抽样技术(第三版)[M].中国人民大学出版社,2012.
[2] 李睆玲,雷恒,陈伟伟.PPS抽样方法在我国农村居民生活消费支出估计中的应用[J].长春金融高等专科学校学报,2009(03):49-51.
[3] 李雪波.基于PPS抽样方法的我国建筑业利润总额实证研究[J].经济视角(下),2009(12):31-32.
[4] 张玉.PPS抽样方法在我国出口贸易预测中的应用[J].经济研究导刊,2011(02):156-157.
[5] 王鹏.PPS抽样在我国工业总产值估计中的应用——抽样效果的比较[J].现代商贸工业,2013(24):22-25.
[6] 沈亚娟.PPS抽样在存货审计中的应用[J].财经界(学术版),2014(03):241-242.
关键词:不等概抽样;PPS抽样;等距抽样;建筑业总值
建筑业是我国经济发展的支柱产业之一,它的健康发展对我国经济的快速发展有着举足轻重的作用。为了解我国建筑业的总体发展情况,可采用抽样调查的方法对我国31个省市自治区建筑业总值进行研究。最简单的抽样方法是简单随机抽样方法(simple random sampling),该方法具有总体中每个单元进入样本的概率严格相等的优点,是一种等概率抽样方法。但是,在总体单元之间差异非常大时,简单随机抽样效果并不是很好。而我国各个地区建筑业企业单位数存在较大差异,所以,本文运用PPS抽样方法对我国建筑业总值进行抽样研究。
1.抽样方法简介
不等概率抽样(sampling with unequal probabilities),是指在抽样中每个单元都具有一定的入样概率,但不是严格相等。它分为放回与不放回两种情况。最常用的放回不等概抽样是PPS抽样(probability proportional to size),它是一种与规模大小成比例的抽样方法,包括代码法和拉稀里(Lahiri)法两种实施办法。在PPS抽样中,一般把Mi作为总体中第i个单元的大小或者规模的度量,M0为总体各单元规模的累积和,即总体的规模大小,若在每次抽样中第i个单元被抽中的概率用Zi表示,则有以下式子成立:Zi=MiM0。
一般情况下,放回抽样比不放回抽样的效率低,因为在放回抽样的实施过程中,某个单元有可能被抽中的多次,而从直观上看,在抽样调查过程中,没有必要对同一个单元调查多次。
等距抽样是一种先将总体按某种顺序进行排序,并确定抽样间距k,并在1~k范围内产生一个随机起点r,然后按照固定间隔k依次选取其他单元的编号,直到抽满n个为止,这样最终入样本编号为:r+(j-1)k,j=1,2,…,n,具有简单易行和使得样本在总体中分布更均匀的优点。一般情况下,等距抽样方法是一种不放回的抽样方法。因此,本文考虑在PPS抽样的基础上,采用等距抽样方法进行抽样研究。这种方法抽取样本比较容易,并且每个单元的被抽中概率与Mi的大小成比例,具有等距抽样的优点。
2.抽样实施方法
假设总体单元数目为N,总体中第i个单元规模大小的为Mi,欲抽取n个样本,则具体的实施步骤为:先用PPS抽样中的代码法,赋予每个单元与Mi相等的代码数,将代码数进行累积,直至M0=∑Ni=1Mi;其次,确定等距抽样的间隔k=M0n;再次,在1~k之间产生一个随机起点,假设为r,则r所在的单元代码区间相应的单元为被抽中的单元;最后,找出r+(j-1)k,j=1,2,…,n所在的代码区间,则相应单元为被抽中的单元。这种抽样方法的特点是当所有单元的度量Mi
3.汉森—赫维茨估计量
汉森—赫维茨(Hansen-Hurwitz)估计量指是采用有放回不等概抽样抽取样本容量n时,总体总值的估计量为样本所有yiZi的平均,即HH=1n∑ni=1yizi,它是总体总值的无偏估计量。
如果采用的PPS抽样,即Zi=MiM0,则
HH=1n∑ni=1yizi=M0n∑ni=1yiMi(1)
總体总值估计量方差为:
VHH=1n∑ni=1ZiYiZi-Y2.
总体总值估计量方差的无偏估计量为:
vHH=1n1n-1∑ni=1yizi-HH2.(2)
4.样本的抽取
为了估计2012年我国建筑业生产总值这一参数,本文以2012年我国31个省、市、自治区的规模以上建筑业企业单位数作为衡量各个地区规模大小的标准,运用PPS抽样和等距抽样方法,抽取10个样本地区,以此估计2012年我国建筑业生产总值,具体抽样步骤如下:
(1)以2012年我国31个省、市、自治区的规模以上建筑业企业单位数作为规模Mi,并进行累计,具体如表1所示。
(2)由于M0=∑Ni=1Mi=75280,因而得出抽样间隔
k=M0n=7528010=7528.
(3)在1~k范围内产生一个随机起点r,假设为r=4875,处于河北代码范围内,故河北进入样本。
(4)根据等距抽样的入样代码:4875+(j-1)7528,j=1,2,…,10,确定进入样本的10个地区。带入数值得,10个入样代码依次为4875,12385,19913,27441,34969,
42497,50025,57553,65081,72609。由表1给出的代码范围可知,进入样本的10个地区依次为河北,辽宁,上海,江苏,浙江,江西,河南,广东,重庆,甘肃。该入样地区2012年建筑业总值(亿元)依次为1491.97,1625.42,757.01,3213.48,
1978.30,1114.39,1654.64,1890.90,994.17,529.85。
表1 以2012年我国各地区企业单位数为规模的代码法
地区2012年企业单位数(Mi)∑Mi代码范围地区2012年企业单位数(Mi)∑Mi代码范围
北京317831781~3178湖北27745559852825~55598 天津153547133179~4713湖南19065750455599~57504
河北234770604714~7060廣东41446164857505~61648
山西201690767061~9076广西10536270161649~62701
内蒙古82899049077~9904海南1206282162702~62821
辽宁5547154519905~15451重庆23346515562822~65155
吉林16531710415452~17104四川31936834865156~68348
黑龙江20381914217105~19142贵州5586890668349~68906
上海29632210519143~22105云南20807098668907~70986
江苏87433084822106~30848西藏1757116170987~71161
浙江55503639830849~36398陕西12497241071162~72410
安徽25393893736399~38937甘肃11087351872411~73518
福建23874132438938~41324青海3677388573519~73885
江西15074283141325~42831宁夏5087439373886~74393
山东56614849242832~48492新疆8877528074394~75280
河南43325282448493~52824
5.建筑业总值参数的估计
由入样概率Zi=MiM0,得出10个样本地区的入样概率分别为:河北0.03118,辽宁0.07368,上海0.03936,江苏0.11614,浙江0.07372,江西0.02002,
河南0.05755,广东0.05505,重庆0.03100,甘肃0.01472。以这10个样本地区的建筑业总值为样本数据,运用汉森—赫维茨估计量,对2012年的我国建筑业总值参数进行估计,由公式(1)得:
HH=1n∑ni=1yizi=110(1491.970.03118+1625.420.07368+…+529.850.01472)=33048.64.
由公式(2)得,总值方差估计量的估计为:
vHH=1n1n-1∑ni=1yizi-HH2=110×9(1491.970.03118-33048.64)2+(1625.420.07368-33048.64)2+…+(529.850.01472-33048.64)2=12665212.
在置信度为95%时,z0.025=1.96,置信区间为
HH±zα2VHH=33048.64±1.9612665212=[26073.35,40023.94].由于2012年我国31个省市自治区建筑业总值为35694.94万元,位于该置信区间内,这说明,该抽样方法可以运用于我国建筑业总值参数的估计,抽样效果较好。
5.结论
本文通过PPS抽样方法和等距抽样方法对2012年我国31个省市自治区建筑业总值的不等概率抽样,抽取了10个样本地区,并以此样本数据为基础运用汉森—赫维茨估计量得出2012年我国建筑业总值的估计值为
330486.4亿元,置信度为95%的置信区间为[26073.35,40023.94],而2012年我国建筑业总值真实值为35694.94万元,位于置信区间内。这表明,这种PPS抽样和等距抽样相结合的抽样方法,可以应用于我国建筑业总值参数的估计中,该抽样方法即保证了总体中规模大的样本被抽中的概率大,规模小的样本被抽中的概率大,提高了抽样样本地区的代表性,又保留了等距抽样的优点。(作者单位:河池学院数学与统计学院)
基金项目:河池学院统计学重点学科建设项目(2013[3])
参考文献:
[1] 金勇进,杜子芳,蒋妍.抽样技术(第三版)[M].中国人民大学出版社,2012.
[2] 李睆玲,雷恒,陈伟伟.PPS抽样方法在我国农村居民生活消费支出估计中的应用[J].长春金融高等专科学校学报,2009(03):49-51.
[3] 李雪波.基于PPS抽样方法的我国建筑业利润总额实证研究[J].经济视角(下),2009(12):31-32.
[4] 张玉.PPS抽样方法在我国出口贸易预测中的应用[J].经济研究导刊,2011(02):156-157.
[5] 王鹏.PPS抽样在我国工业总产值估计中的应用——抽样效果的比较[J].现代商贸工业,2013(24):22-25.
[6] 沈亚娟.PPS抽样在存货审计中的应用[J].财经界(学术版),2014(03):241-242.