论文部分内容阅读
适应性群团抽样,最早由Thompson提出,针对稀疏总体分布估计的抽样方法。适应性群团抽样是一种自适应抽样方案,它的工作原理是:当一个初始选择的抽样单元的观测值满足一定的条件C时,在一些预定义的伴随邻域内的其他附加单元也将被添加到样本中;反过来,如果这些额外的单元满足C,那么它们的相关单元邻域也会被添加到样本中,以此类推。当没有遇到满足C的附加单元时,此过程将停止。本文将介绍ACS的主要发展和问题。
1 ACS抽样介绍
在自适应抽样方案下,选择样本单位的程序可能取决于在调查期间所观察到的有关变量的值,即抽样是根据数据“调整”的。“一般来说,这意味着如果你在一个特定的地点找到了你要找的东西,你就在那个地点附近取样,希望获得更多的信息。”通过此种方法,我们得到一个个的网络,最小的网络单元是一阶邻域。一阶邻域由单元本身和共享一個共同边界的四个相邻单元(表示为北、南、东和西)组成,二阶邻域包含八个单元,由一阶邻域加上西北、东北、西南和东南单元组成。这两种邻域类型适用于满足C的y趋于聚集且没有任何特定方向的研究。然而,面向社区抽样时,邻里关系可以通过单位之间的社会关系来定义,从技术上讲,附近的单元不必是物理上相邻的。ACS适用于:总体是个体趋于聚集且个体数量相对较少的群体。在这些情况下,如果使用经典的抽样设计(简单随机抽样),大多数测量值将为0,许多群团将被遗漏。因此,与估计总体均值或总体有关的方差将很大。
ACS现已被广泛适用于生态学、生物学、流行病学、环境科学、人口统计学和地质学ACS还可能适用于由于群集、分散模式和环境碎片性等因素而具有聚集倾向的动植物种群。
2 ACS抽样设计
(1)选择初始样本
ACS抽样的第一步即选择初始样本,关于初始样本的选择方法是多种多样的,包括:简单随机抽样(有放回和无放回)、条带抽样、系统抽样、分层抽样、按概率比例大小抽样和简单拉丁方抽样。从成本的角度来看,最后两个选择方法的潜在优势是采样单元之间的平均距离更小,更容易找到样方位置。
(2)网络数量和规模
ACS抽样方法的基础是网络单元的选取。网络的实际数量取决于总体的空间结构、临界值和邻域单元的设计。
① 总体的空间结构
在一项模拟研究中,利用泊松聚类过程的一种变体,以不同的速率k1生成200个种群。独立个体在不同距离的星系团中心呈指数分布。随着总数的增加,网络的数量增加,达到最大值,然后减少。这是由于超网络现象。也就是说,在某一时刻,当k1增加时,相邻的网络开始合并,形成更大的网络,从而形成更少的总体网络。
②临界值
一个小的临界值可以导致更大(数量更少)的群团的形成,而一个大的临界值可以导致更小(数量更多)的群团的形成。因此,临界值的选择将取决于抽样工作是集中于对较大的单个集群进行抽样,还是集中于对许多较小的群团进行抽样,而这些较小的群团最终取决于最大的变异源在群团内部还是群团之间。
③ 邻域单元的设计
Chrisman使用三种类型的社区对几个人群的ACS进行了研究。结果是,最有效的ACS设计是基于物理上相邻的单元来利用邻域。对于所有的总体,网络的数量随着邻域定义的大小的减小而增加。小邻域定义的使用提高了总体临界值越大(网络数越多)的相对效率,而对于非常低的临界值(网络数越少),相对效率越小。
(3)估计量的选择
① Hansen-Hurwitz估计量
② Horvitz-Thompson估计量
(4)额外抽样的标准
在某些调查情况下,条件的选择可能很难或不可能确定。也许研究者还想寻找y的高值。在这种情况下,可以根据观察到的样本值,根据样本顺序统计量来确定额外抽样的标准。
3 ACS抽样方法的发展
(1)两阶段适应性群团抽样
关于自适应群团抽样方法的一种发展是采用两阶段设计方法,提出的目的是为了避免使用边缘单元,具体方法是:主要抽样单元被选择,并根据预设条件的值,对整个主要单元进行调查;在下一步中,如果满足第二个条件,则选择周围的主样本单元。
(2)逆自适应群团抽样
逆自适应群团抽样方法中预先规定最初抽样单元数中非零观察值的样本数量,直至抽到满足的样本数量,则最初形成的网络数小于等于最初的单元数。
参考文献
[1] Steven K. Thompson. Adaptive Cluster Sampling[J]. Publications of the American Statistical Association,1990,85(412):1050-1059.
作者简介:郭欢萍(1994-)山西晋中人,研究方向:非概率抽样。
1 ACS抽样介绍
在自适应抽样方案下,选择样本单位的程序可能取决于在调查期间所观察到的有关变量的值,即抽样是根据数据“调整”的。“一般来说,这意味着如果你在一个特定的地点找到了你要找的东西,你就在那个地点附近取样,希望获得更多的信息。”通过此种方法,我们得到一个个的网络,最小的网络单元是一阶邻域。一阶邻域由单元本身和共享一個共同边界的四个相邻单元(表示为北、南、东和西)组成,二阶邻域包含八个单元,由一阶邻域加上西北、东北、西南和东南单元组成。这两种邻域类型适用于满足C的y趋于聚集且没有任何特定方向的研究。然而,面向社区抽样时,邻里关系可以通过单位之间的社会关系来定义,从技术上讲,附近的单元不必是物理上相邻的。ACS适用于:总体是个体趋于聚集且个体数量相对较少的群体。在这些情况下,如果使用经典的抽样设计(简单随机抽样),大多数测量值将为0,许多群团将被遗漏。因此,与估计总体均值或总体有关的方差将很大。
ACS现已被广泛适用于生态学、生物学、流行病学、环境科学、人口统计学和地质学ACS还可能适用于由于群集、分散模式和环境碎片性等因素而具有聚集倾向的动植物种群。
2 ACS抽样设计
(1)选择初始样本
ACS抽样的第一步即选择初始样本,关于初始样本的选择方法是多种多样的,包括:简单随机抽样(有放回和无放回)、条带抽样、系统抽样、分层抽样、按概率比例大小抽样和简单拉丁方抽样。从成本的角度来看,最后两个选择方法的潜在优势是采样单元之间的平均距离更小,更容易找到样方位置。
(2)网络数量和规模
ACS抽样方法的基础是网络单元的选取。网络的实际数量取决于总体的空间结构、临界值和邻域单元的设计。
① 总体的空间结构
在一项模拟研究中,利用泊松聚类过程的一种变体,以不同的速率k1生成200个种群。独立个体在不同距离的星系团中心呈指数分布。随着总数的增加,网络的数量增加,达到最大值,然后减少。这是由于超网络现象。也就是说,在某一时刻,当k1增加时,相邻的网络开始合并,形成更大的网络,从而形成更少的总体网络。
②临界值
一个小的临界值可以导致更大(数量更少)的群团的形成,而一个大的临界值可以导致更小(数量更多)的群团的形成。因此,临界值的选择将取决于抽样工作是集中于对较大的单个集群进行抽样,还是集中于对许多较小的群团进行抽样,而这些较小的群团最终取决于最大的变异源在群团内部还是群团之间。
③ 邻域单元的设计
Chrisman使用三种类型的社区对几个人群的ACS进行了研究。结果是,最有效的ACS设计是基于物理上相邻的单元来利用邻域。对于所有的总体,网络的数量随着邻域定义的大小的减小而增加。小邻域定义的使用提高了总体临界值越大(网络数越多)的相对效率,而对于非常低的临界值(网络数越少),相对效率越小。
(3)估计量的选择
① Hansen-Hurwitz估计量
② Horvitz-Thompson估计量
(4)额外抽样的标准
在某些调查情况下,条件的选择可能很难或不可能确定。也许研究者还想寻找y的高值。在这种情况下,可以根据观察到的样本值,根据样本顺序统计量来确定额外抽样的标准。
3 ACS抽样方法的发展
(1)两阶段适应性群团抽样
关于自适应群团抽样方法的一种发展是采用两阶段设计方法,提出的目的是为了避免使用边缘单元,具体方法是:主要抽样单元被选择,并根据预设条件的值,对整个主要单元进行调查;在下一步中,如果满足第二个条件,则选择周围的主样本单元。
(2)逆自适应群团抽样
逆自适应群团抽样方法中预先规定最初抽样单元数中非零观察值的样本数量,直至抽到满足的样本数量,则最初形成的网络数小于等于最初的单元数。
参考文献
[1] Steven K. Thompson. Adaptive Cluster Sampling[J]. Publications of the American Statistical Association,1990,85(412):1050-1059.
作者简介:郭欢萍(1994-)山西晋中人,研究方向:非概率抽样。