论文部分内容阅读
摘要:本文针对敏感性问题造成的无回应给出了要调查问题所占比例的点估计,证明了该估计是无偏估计,几乎处处收敛,依概率收敛,而且从理论上证明了当黑球比例与白球比例的差的绝对值越大时,得到的估计值越接近实值。
关键词:敏感性问题;抽样调查
无论是进行社会问题研究还是进行市场需求的统计分析研究,运用的最为普遍的是抽样调查。显然,抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。抽样调查可以分为两类,即概率抽样和非概率抽样。
现在被广泛应用的抽样调查是概率抽样。因此,现代的抽样调查是指概率抽样,其定义为:抽样调查,又称抽样推断,是一种重要的、科学的非全面调查方法。它根据调查的目的和任务要求,按照随机原则,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用所得到的调查标志的数据来推断总体。抽样调查按抽样的组织形式划分,有以下几种主要方法:(1)简单随机抽样(也叫纯随机抽样,SPS抽样)。(2)等距抽样(也叫机械抽样或系统抽样,SYS抽样)。(3)类型抽样(也叫分层抽样,STR抽样)。(4)整群抽样(又称集团抽样)。(5)多阶抽样(又称多级抽样)。(6)二重抽样(又称两相抽样)。(7)比率抽样(PPS抽样)。
抽样调查中存在的主要问题:1.确定样本框难度大。2.被调查者不配合。3.调查者素质较低,能力差。4.问卷调查表设计不合理。针对上述提到的问题,我们应该认真研究合适的调查方法和技巧:(1)健全调查网络,建立稳固的调查队伍提升调查员的业务素质,这是减少调查误差的关键。(2)宣传统计法律,打消被调查者的心理顾虑,这是取得准确调查数据的基础。(3)采用迂回访谈,经常换位思考,消除防范心理,从而获得准确数据。(4)科学判断评估。抽样调查除了本身存在的抽样误差外,还存在调查误差。因此对调查数据质量进行科学评估显得尤为重要。
大部分的抽样调查,都会遇到随机抽样误差以外的误差,这些误差会导致产生偏差,使得置信叙述没有意义。产生误差的原因主要有:涵盖不全,即在选样本过程中,如果总体当中的有些部分,根本未被纳入选择范围,这时就发生了涵盖不全的问题,即使从该总体中随机抽样,所得结果还是有偏的;无回应,即无法得到已经被选入样本的个体的资料,最常发生无回应的原因,是联络不上受访对象或者受访对象拒绝回答。一项抽样调查中所宣称的误差界限只包括随机抽样误差。涵盖不全、无回应以及其他实际困难也会造成较大的偏差,但是误差界限并没有包含这些项目在内。从而,我们应尽可能减少这方面造成的偏差。好的技巧都有减少误差的作用。
当调查的问题比较敏感时,被调查者一般不愿意回答,或者即使同意回答但是却做出虚假的答复,这都会造成无回应的发生。例如涉及“你是否赌博”,“曾经是否作弊”,运动员“是否服用兴奋剂”的问题,有过如此经历的人是不愿意承认的。
我们以调查体育运动员服用兴奋剂所占的比例为例,为了得到实际的值,调查人员让运动员在无人的场所内,从装有黑球和白球的袋子中任意取一球,观察其颜色后放回,并承诺若取得黑球就讲真话,取得白球就讲假话,被调查者只需要在匿名的调查表中选“是”或者“否”即可。其中,袋中黑球和白球的比例分别是p0,q0(p0+q0=1)。
下面的问题是如何得到p值的估计p,p是否p是的无偏估计,为了得到更精确的估计,我们的抽样调查方法应该如何改进。
一、p值的估计p
对于任意一名运动员,设事件A1=“回答曾服用兴奋剂”,事件A2=“实际服用兴奋剂”,利用全概率公式得到
p1=P(A1)=P(A1|A2)P(A2)+P(A1|A2)P(A2)
=p0P(A2)+q0P(A2)
=p0P(A2)+q0(1-P(A2))
=q0+(p0-q0)P(A2),
于是,当p0≠q0时,我们有
p=P(A2)=P(A1)-q0p0-q0=p1-q0
p0-q0。
根据概率的统计定义:若是调查了n名运动员,其中有m名运动员回答“是”,则我们用频率来近似概率,便有p1=m/n。从而得到p的估计值p=p1-q0p0-q0。
例:在运动员服用兴奋剂比例的调查中,设袋中黑球与白球的比例分别是p0=3/1.,q0=7/10,运动员中回答“是”的比例是p1=19/30,从而我们得到p的估计值
p=19/30-7/103/10-7/10=16。
二、p是p的无偏估计
命题1:当p0≠q0时,p的估计p是p的无偏估计。
分析:要得到p是p的无偏估计,只需证明Ep=p,又Ep=Ep1-q0p0-q0,于是只需要求出Ep1即可。
证明:设X1,X2,……,Xn是独立同分布随机变量序列,其中
Xi=1,第i名运动员回答是
0,第i名运动员回答否,i=1,2,3,……,n,
则有
p1=X1+X2+…+Xnn,
且EXi=P(Xi=1)
=P(Xi=1|取到黑球)P(取到黑球)+P(Xi=1|取到白球)P(取到白球)
=pp0+(1-p)q0,
从而有
Ep1=E(X1+X2+…+Xnn)=EXi=pp0+(1-p)q0,
所以
Ep=pp0+(1-p)q0-q0p0-q0=p。
命题2:当p0≠q0时,对于p值的估计p,有p→p,a.s. 。
证明:由强大数定律[1],我们有p1→EX1 a.s., ,即存在样本空间Ω中的点集Ω0,满足P(Ω0)=0,且limn→∞p1=EX1,ω∈ΩΩ0,从而有
limn→∞p1-q0p0-q0=EX1-q0p0-q0=p,ω∈ΩΩ0或limn→∞p=p,ω∈ΩΩ0,
即p→p,a.s.。
几乎必然收敛和依概率收敛这两种收敛性分别对应强大数定律和弱大数定律,强大数定律比弱大数定律要强,从而几乎必然收敛可以推得依概率收敛[2],我们得到下面的结论:
推论:当p0≠q0时,对于p值的估计p,有pPp。
三、如何设计才能减少误差
命题3:当p0≠q0,且|p0-q0|增大时,p的方差Dp减小。
证明: Dp=D(p1-q0p0-q0)=Dp1(p0-q0)2,由命题1的证明过程知
Dp1=DXin=EXi-(EXi)2n=
pp0+(1-p)q0-(pp0+(1-p)q0)2n,
从而有
Dp=Dp1(p0-q0)2=pp0+(1-p)q0-[pp0+(1-p)q0]2n(p0-q0)2
=p(p0-q0)+q0-p2(p0-q0)2-2pq0(p0-q0)-q20n(p0-q0)2
=p(p0-q0)-p2(p0-q0)2+p0q0-2pq0(p0-q0)n(p0-q0)2
=p(p0-q0)2-p2(p0-q0)2+p0q0n(p0-q0)2
=1n[(p-p2)+p0q0(p0-q0)2
]
又p0q0(p0-q0)2=
(p0+q0)2-(p0-q0)24(p0-q0)2=
14(p0-q0)2-14,代入上式得
Dp=1n[(p-p2)+14(p0-q0)2-14]。
由此可见,当|p0-q0|增大时,p的方差Dp减小。
当|p0-q0|增大时,p会更接近p,但是往往也不会为被调查者所接受,无回应还是会发生。遇到这样的情况,我们应该怎样处理这些问题呢?
首先,用其他人取代不回应的人。因为城市里的不回应率很高,如果用不回应住户附近的其他住户来取代,可以减低偏差。其次,数据搜集完成之后,应该用统计方法给回应加权,以纠正误差来源。如果城市里太多住户没回应,就给城市里有回应的住户加权。如果样本里太多女性,就给男士们加权。加权的确可以修正偏差,但是也会增加变异性。这就需要统计学家们继续研究更多地调查方法。
参考文献:
[1] 茆诗松,程依明,濮晓龙. 概率论与数理统计教程[M].北京:高等教育出版社,2004.
[2]李贤平,沈崇圣,陈子毅. 概率论与数理统计[M].上海:复旦大学出版社,2003.251.
[3]戴维﹒S﹒穆尔著,郑维厚,译. 统计学的世界(第五版).北京:中信出版社,2003.
(作者单位:石河子大学商学院)
关键词:敏感性问题;抽样调查
无论是进行社会问题研究还是进行市场需求的统计分析研究,运用的最为普遍的是抽样调查。显然,抽样调查虽然是非全面调查,但它的目的却在于取得反映总体情况的信息资料,因而,也可起到全面调查的作用。抽样调查可以分为两类,即概率抽样和非概率抽样。
现在被广泛应用的抽样调查是概率抽样。因此,现代的抽样调查是指概率抽样,其定义为:抽样调查,又称抽样推断,是一种重要的、科学的非全面调查方法。它根据调查的目的和任务要求,按照随机原则,从若干单位组成的事物总体中,抽取部分样本单位来进行调查、观察,用所得到的调查标志的数据来推断总体。抽样调查按抽样的组织形式划分,有以下几种主要方法:(1)简单随机抽样(也叫纯随机抽样,SPS抽样)。(2)等距抽样(也叫机械抽样或系统抽样,SYS抽样)。(3)类型抽样(也叫分层抽样,STR抽样)。(4)整群抽样(又称集团抽样)。(5)多阶抽样(又称多级抽样)。(6)二重抽样(又称两相抽样)。(7)比率抽样(PPS抽样)。
抽样调查中存在的主要问题:1.确定样本框难度大。2.被调查者不配合。3.调查者素质较低,能力差。4.问卷调查表设计不合理。针对上述提到的问题,我们应该认真研究合适的调查方法和技巧:(1)健全调查网络,建立稳固的调查队伍提升调查员的业务素质,这是减少调查误差的关键。(2)宣传统计法律,打消被调查者的心理顾虑,这是取得准确调查数据的基础。(3)采用迂回访谈,经常换位思考,消除防范心理,从而获得准确数据。(4)科学判断评估。抽样调查除了本身存在的抽样误差外,还存在调查误差。因此对调查数据质量进行科学评估显得尤为重要。
大部分的抽样调查,都会遇到随机抽样误差以外的误差,这些误差会导致产生偏差,使得置信叙述没有意义。产生误差的原因主要有:涵盖不全,即在选样本过程中,如果总体当中的有些部分,根本未被纳入选择范围,这时就发生了涵盖不全的问题,即使从该总体中随机抽样,所得结果还是有偏的;无回应,即无法得到已经被选入样本的个体的资料,最常发生无回应的原因,是联络不上受访对象或者受访对象拒绝回答。一项抽样调查中所宣称的误差界限只包括随机抽样误差。涵盖不全、无回应以及其他实际困难也会造成较大的偏差,但是误差界限并没有包含这些项目在内。从而,我们应尽可能减少这方面造成的偏差。好的技巧都有减少误差的作用。
当调查的问题比较敏感时,被调查者一般不愿意回答,或者即使同意回答但是却做出虚假的答复,这都会造成无回应的发生。例如涉及“你是否赌博”,“曾经是否作弊”,运动员“是否服用兴奋剂”的问题,有过如此经历的人是不愿意承认的。
我们以调查体育运动员服用兴奋剂所占的比例为例,为了得到实际的值,调查人员让运动员在无人的场所内,从装有黑球和白球的袋子中任意取一球,观察其颜色后放回,并承诺若取得黑球就讲真话,取得白球就讲假话,被调查者只需要在匿名的调查表中选“是”或者“否”即可。其中,袋中黑球和白球的比例分别是p0,q0(p0+q0=1)。
下面的问题是如何得到p值的估计p,p是否p是的无偏估计,为了得到更精确的估计,我们的抽样调查方法应该如何改进。
一、p值的估计p
对于任意一名运动员,设事件A1=“回答曾服用兴奋剂”,事件A2=“实际服用兴奋剂”,利用全概率公式得到
p1=P(A1)=P(A1|A2)P(A2)+P(A1|A2)P(A2)
=p0P(A2)+q0P(A2)
=p0P(A2)+q0(1-P(A2))
=q0+(p0-q0)P(A2),
于是,当p0≠q0时,我们有
p=P(A2)=P(A1)-q0p0-q0=p1-q0
p0-q0。
根据概率的统计定义:若是调查了n名运动员,其中有m名运动员回答“是”,则我们用频率来近似概率,便有p1=m/n。从而得到p的估计值p=p1-q0p0-q0。
例:在运动员服用兴奋剂比例的调查中,设袋中黑球与白球的比例分别是p0=3/1.,q0=7/10,运动员中回答“是”的比例是p1=19/30,从而我们得到p的估计值
p=19/30-7/103/10-7/10=16。
二、p是p的无偏估计
命题1:当p0≠q0时,p的估计p是p的无偏估计。
分析:要得到p是p的无偏估计,只需证明Ep=p,又Ep=Ep1-q0p0-q0,于是只需要求出Ep1即可。
证明:设X1,X2,……,Xn是独立同分布随机变量序列,其中
Xi=1,第i名运动员回答是
0,第i名运动员回答否,i=1,2,3,……,n,
则有
p1=X1+X2+…+Xnn,
且EXi=P(Xi=1)
=P(Xi=1|取到黑球)P(取到黑球)+P(Xi=1|取到白球)P(取到白球)
=pp0+(1-p)q0,
从而有
Ep1=E(X1+X2+…+Xnn)=EXi=pp0+(1-p)q0,
所以
Ep=pp0+(1-p)q0-q0p0-q0=p。
命题2:当p0≠q0时,对于p值的估计p,有p→p,a.s. 。
证明:由强大数定律[1],我们有p1→EX1 a.s., ,即存在样本空间Ω中的点集Ω0,满足P(Ω0)=0,且limn→∞p1=EX1,ω∈ΩΩ0,从而有
limn→∞p1-q0p0-q0=EX1-q0p0-q0=p,ω∈ΩΩ0或limn→∞p=p,ω∈ΩΩ0,
即p→p,a.s.。
几乎必然收敛和依概率收敛这两种收敛性分别对应强大数定律和弱大数定律,强大数定律比弱大数定律要强,从而几乎必然收敛可以推得依概率收敛[2],我们得到下面的结论:
推论:当p0≠q0时,对于p值的估计p,有pPp。
三、如何设计才能减少误差
命题3:当p0≠q0,且|p0-q0|增大时,p的方差Dp减小。
证明: Dp=D(p1-q0p0-q0)=Dp1(p0-q0)2,由命题1的证明过程知
Dp1=DXin=EXi-(EXi)2n=
pp0+(1-p)q0-(pp0+(1-p)q0)2n,
从而有
Dp=Dp1(p0-q0)2=pp0+(1-p)q0-[pp0+(1-p)q0]2n(p0-q0)2
=p(p0-q0)+q0-p2(p0-q0)2-2pq0(p0-q0)-q20n(p0-q0)2
=p(p0-q0)-p2(p0-q0)2+p0q0-2pq0(p0-q0)n(p0-q0)2
=p(p0-q0)2-p2(p0-q0)2+p0q0n(p0-q0)2
=1n[(p-p2)+p0q0(p0-q0)2
]
又p0q0(p0-q0)2=
(p0+q0)2-(p0-q0)24(p0-q0)2=
14(p0-q0)2-14,代入上式得
Dp=1n[(p-p2)+14(p0-q0)2-14]。
由此可见,当|p0-q0|增大时,p的方差Dp减小。
当|p0-q0|增大时,p会更接近p,但是往往也不会为被调查者所接受,无回应还是会发生。遇到这样的情况,我们应该怎样处理这些问题呢?
首先,用其他人取代不回应的人。因为城市里的不回应率很高,如果用不回应住户附近的其他住户来取代,可以减低偏差。其次,数据搜集完成之后,应该用统计方法给回应加权,以纠正误差来源。如果城市里太多住户没回应,就给城市里有回应的住户加权。如果样本里太多女性,就给男士们加权。加权的确可以修正偏差,但是也会增加变异性。这就需要统计学家们继续研究更多地调查方法。
参考文献:
[1] 茆诗松,程依明,濮晓龙. 概率论与数理统计教程[M].北京:高等教育出版社,2004.
[2]李贤平,沈崇圣,陈子毅. 概率论与数理统计[M].上海:复旦大学出版社,2003.251.
[3]戴维﹒S﹒穆尔著,郑维厚,译. 统计学的世界(第五版).北京:中信出版社,2003.
(作者单位:石河子大学商学院)