数据挖掘方法应用于调查数据的抽样权重问题——基于放回比例抽样的再抽样方法

来源 :统计研究 | 被引量 : 0次 | 上传用户:jing8522
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在将数据挖掘方法应用于抽样调查数据时,会遇到抽样权重的处理问题。本文提出采用放回的、与样本单元权数大小成比例的再抽样方法,简称PPWWR再抽样,来实现"事后"自加权设计。实现"事后"自加权设计后的子样本可忽略掉样本权数,直接采用常规的图示方法和数据挖掘算法进行分析。随后,基于2007中国公民科学素质调查贵州省数据,通过模拟分析讨论了PPWWR再抽样子样本的样本量问题,发现max(n,5%N)是一个比较合适的样本量。这一结论可能为其他大型复杂抽样调查数据的数据挖掘实施问题提供借鉴。
其他文献
城市商业银行在日益激烈的银行业竞争中,面临着来自国有商业银行、外资银行和其它股份制银行的巨大竞争压力,其生存空间受到强大的挤压。但是客观地看,各个竞争对手间都有自
习近平总书记在十九大报告中明确指出,我国社会主要矛盾已经转化为人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾。随着人们的生活水平的提高,消费者对多样化的
电镀行业是一个重污染行业之一,同时也是高耗能行业。因此,在环境保护和清洁生产方面受到社会各界的密切关注。目前,国际上对电镀清洁生产进行了大量深入的研究和探索,那么如
在新常态背景下,随着经济的平稳发展,人民的生活水平有了显著提高,开始追求更加健康绿色的消费,这就使得高端农产品逐渐步入人们的消费视野。本文在消费需求的大背景下,结合
人才兴则出版业兴,人才强则出版业强。在出版业融合发展的背景下,提升传统出版机构编辑的数字化能力任重而道远。本文结合传统出版机构编辑数字化现状、传统编辑转型遇到的问
中国工业面对日益加大的资源环境约束和气候变化,需要进行绿色发展。过去五年,工业绿色发展初见成效,但仍面临着体制机制的障碍和困难。分析了"十三五"期间,中国工业产业升级
科学合理的机械成本控制,是提高施工企业经济效益的重要手段。随着现代技术的不断进步,机械化工程施工越来越多,加强施工过程中的机械设备成本管控,成为一项重要的研究课题。
亚当·斯密提出的“贫困多育,富裕少育”的生育理论反映了近代以来人口增殖的实际状况。本文认为其理由是:第一,人类愈贫困,生育的自然状态愈严重,必然导致多育;第二,人类愈贫困,对劳
人文关怀已经成为全社会关于弘扬中国伟大民族传统的精神力量,我们在对中职班主任的工作中加强人文关怀的构建具有非常重要的意义。在中职学生实行人文关怀的培养符合我国对
为了满足远离天然气主干网能源紧缺城市的用气需求,需要采用低温储罐公路运输液化天然气到能源紧缺城市。在公路运输过程中,运输车辆发生事故的次数在逐年增加,为了有效处置各类