缺失数据插补方法的选择研究

来源 :兰州财经大学 | 被引量 : 0次 | 上传用户:xixiaoqiqi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计学是一门发现规律、寻找内涵的实用科学,而规律的提取、内涵的挖掘离不开基础的研究对象——数据。缺失问题是数据收集过程中的一个无法回避的客观存在,正确的处理缺失数据,能够提高数据质量,提升数据分析精度。高质量的样本数据不仅能够展现总体特征,而且对于样本数据的个体信息也有充分表达,在假设调研过程无误的情况下,如果能够对缺失数据实现最大程度的还原,那么对于数据分析工作将有非常重要的意义。本文在对前人理论和成果的总结基础之上,进行缺失数据插补方法的选择研究,总结出方法选择时需要注意的四个方面——数据集类型、数据缺失模式、数据缺失机制和数据特征。从本质来看,对于上述四个方面的研究其实就是对于样本数据特征的深度挖掘,样本数据不仅代表总体指标,更包含自身大量信息,充分利用已有的信息进行插补方法的选择将更优利于数据还原。文章的第二部分首先进行了缺失数据插补方法的分类和比较,在明确插补准则的基础之上,通过对插补方法的特征总结梳理出各种方法的适用数据集情况。第三部分开始对需要进行插补的目标数据集特征进行深度分析,从数据集类型、数据缺失模式、数据缺失机制和数据特征四个方面讨论数据特性,并明确插补方法的选择需要依靠对不同数据特性的具体分析。在文章的第四和第五部分,分别用模拟数据和实证数据对不同特征下的数据进行插补实验,其结果证明在数据特征影响下,插补方法的效果有明显差异。首先,单值插补较多值插补而言更容易影响插补效果,扭曲数据分布,但多值插补相对而言也要付出更多的时间和工作量;其次,当存在辅助信息时,相关系数较大的辅助变量会产生更好的插补效果,而且其插补效果在高缺失率情况下比单值插补在低缺失率情况下要好;最后,插补效果会随着缺失率增大而逐渐变差,但在随机缺失机制下,插补效果没有因为缺失率增大而出现明显拐点,信息的损失是均匀递减。
其他文献
土壤盐分是影响干旱区荒漠植物群落动态的决定因素之一。基于样方调查和不同土壤盐分梯度下植物多样性指数及群落与种间关联的计算结果,分析干旱区荒漠群落植物多样性、群落联
结果加重犯有四种组合模式,其中只有"基本犯故意+加重结果故意"的模式具有探讨未遂问题的必要。结果加重犯存在未遂的两个基础是其犯罪构成的独立性与重结果在构成要件中的地
证券金融公司是融资融券交易中转融通制度的重要组成部分,设立证券金融公司在沟通货币市场和资本市场、扩大证券公司的融资融券渠道、分散市场风险等方面具有重要的功能和价
探讨基于MDT理念的CBL教学法在核医学住院医师规范化培训(住培)中的实施效果。组成MDT教学团队(分为核素治疗和显像A、B两组带教老师),在住培中的核医学专业培训期间,开展基
三聚氰胺工艺是化工领域中比较复杂的工艺流程,由于过程的复杂性和不稳定性,实际生产中难以控制,很难建立数学模型进行计算。为解决上述问题,对尿素高压法制备三聚氰胺的过程
目的探讨CBL联合MDT教学模式在临床微生物检验规范化培训教学中应用的效果。方法选取20名实行CBL联合MDT教学模式的学生为研究组,既往实行传统教学模式的20名学生为对照组,通
补中益气汤加减治疗二尖瓣脱垂综合征22例临床体会广东省中医院内科(510120)尹克春,文旺秀二尖瓣脱垂综合征(MVPS)是临床上较少见的心脏疾患,目前本病尚缺乏有效的治疗方法,本文采用中药为主治疗
研究P2P网络恶意入侵准确检测问题。针对P入侵检测过程与传统的过程不同,采用预兆性特征为主,缺少确切的可确定行为的特征信息,点对点结构限制了特征之间的联系性,传统的特征
当前我国中小学教育中亟待解决的问题之一,就是学生课业负担过重,课业负担过重的一个主要方面就是作业负担过重.过重的作业负担像一座“大山”,压得教师和学生已经无法承受,
中小企业的生存与发展取决于其战略管理意识与能力,而战略管理诊断分析是制定前瞻性战略规划及战略发挥实效的关键。本文以某中小型制造企业为实例,研究了中小企业战略管理诊