基于统计学习的数据预处理缺失值清洗方法研究

被引量 : 0次 | 上传用户:DK7531672
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着因特网的蓬勃发展、社会的数字化变革以及经济的快速发展,数据的规模正在以惊人的速度不断增长。如何从大量数据中提取所蕴藏着的有价值信息变得越来越重要,由此,数据挖掘技术应运而生。数据挖掘算法也越来越受到人们的重视,其中许多算法和模型都建立在理想的数据集上,而现实中的数据集通常存在着数据不完整的情况,即数据记录中含有缺失值的情况。对于缺失数据,通常采用某种清洗方法对其进行处理,然后在处理后生成的完整数据集上进行数据挖掘。目前应用在缺失值插补上的方法有很多,它们各有其优缺点。本文在对缺失值插补方法进行了大量研究和分析后,针对具有聚类特征的数据集提出了一种变量选择、回归预插补、聚类分析、回归插补的缺失值清洗框架,该框架构成了基于统计学习的缺失值清洗方法。此外,针对本文提出的缺失值插补方法,在深入研究K-means算法的优缺点后,提出一种改进的聚类算法。并在实现过程中提出了整个缺失值清洗过程的流程。最后分别在聚类数据集上、随机数据集和真实数据集上进行了实验。通过与其他缺失值插补方法在插补效果上的比较,实验验证了本文提出的方法的有效性。
其他文献
网络深刻地影响着当代青年的学习、生活习惯、思维观念以及与外界交往的方式,已成为当前开展青年思想政治工作迫切需要占领、拓展并强化的重要领域。网络技术的发展同时也为
随着《证券投资顾问业务暂行规定》(以下简称《暂行规定》)的颁布,明确了证券投资顾问业务的定义及其内容,对于中国证券经纪业务的发展是一种新的指导和支持。中国证券经纪业
韩国语词汇包括固有词、汉字词、外来词三部分,其中,汉字词占的比重最大,可以说韩国语词汇的半数以上是汉字词,所以汉字词对韩国人的日常语言生活有很大影响。中韩两国自古就
自19世纪60年代以来,全球银行业先后经历了三次大规模的并购浪潮,对全球经济金融产生了重大而深刻的影响。而爆发于2007年的全球金融危机更加加快了当前银行业的整合,美国、
国家提出需要进一步加强信息化建设,以信息化发展为导向和风向标,以此带动其他产业发展,加快宽带网络速度提升建设,并提出实施三网融合战略,即广电网、电信网、互联网三网合
职业教育作为我国的一个重要教育类型,在为社会发展培养基层劳动者,特别是具有高素质和专业技能的劳动者方面做出了巨大的贡献。随着人们思想认识的转变,职业教育越来越受到
随着广播电台技术的飞速发展及规模的迅速扩大,主控机房得到了大规模应用。数字音频矩阵作为主控机房的核心设备,其需求也越来越多。为了完成复杂的节目制作和播出,对数字音
提出利用插值算法对FFT算法的计算结果进行修正形成插值傅立叶变换(IFFT)算法,从而提高频谱分析得到频率、幅值等电气参数的计算精度。短时闪变值只,是衡量电压波动与闪变的
随着采矿工业的快速发展,某些投产多年的大型金属矿床的地下开采条件变得越来越复杂,矿井通风问题层出不穷,严重影响矿山安全生产和未来的发展规划。因此,围绕此类矿山进行矿
本文选取了上海联谊汽车拖拉机工贸有限公司---一家小型汽车零部件制造商---为研究对象,阐述了如何在企业内部建立ISO9000族质量管理体系的过程及需要注意的问题。本文开头阐