均值填补算法的改进和研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:xamchendehui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘成为很热门的研究领域,但是在数据处理过程中常常会遇到数据缺失、不一致等各种问题。针对数据缺失问题,数据分析中,常常使用数据填补方法为缺失值寻找一个替代值。近邻均值填补在图形数据中、及KNN填补算法在数据填补中最常用的均值类填补方法。本文依据主成分分析算法原理,对均值填补和KNN填补算法进行改进,并使用改进后的算法对数据进行仿真实验。均值填补是常用的数据填补方式,根据缺失项周围的数据特性,使用这些数据的均值来填补缺失项,本算法的优势之处是使用简单方便,时间复杂度和算法复杂度很低。适用于简单的缺失值较少的的数据分析中,对最终的分类聚类结果影响较小。近邻均值填补往往忽略了相邻变量之间的相互关系,又对噪声数据极为敏感,容易造成填补值偏差较大。将主成份分析算法应用到均值填补算法中,根据主成分分析算法原理,计算出相邻各属性的特征重要度,并使用属性重要度作为权重以均值填补的计算方式算出缺失数据相邻矩阵的加权平均值,将其作为相邻属性对于均值填补的影响偏移值,加入到均值填补的均值计算中。KNN填补算法是数据挖掘中较成熟的数据填补方式,由算法计算出整体数据中,和缺失项所在数据行距离最小的K个近邻数据项,根据不同数据的距离的大小得到缺失项的替代值。和均值填补算法一样,KNN根据数据相似性对缺失项进行填补,却忽略了属性之间的相互关系。同样,将主成份分析算法应用到KNN填补算法中,把KNN得到的数值作为主体填补值,使用主成分分析算法计算出整体的属性的相关性,以属性间的差值作为计算标准,由此得到一个横向的属性相关值,并入到KNN计算之中,最后得到的数值就是算法改进后的最终估算数值。通过对UCI数据集的仿真实验可知,基于主成分分析属性相关值算法改进的最近邻均值填补算法和KNN填补的算法的准确性和有效性也明显得到提高。
其他文献
目的探讨咽旁间隙肿瘤手术方法和入路的选择。方法对6例原发于咽旁间隙较大的良性或低度恶性肿瘤的手术治疗和效果进行回顾分析。结果分别采取颈侧入路、腮腺后入路、口咽软
目的:探讨冠心病(CHD)患者血清同型半胱氨酸(Hcy)水平与冠状动脉病变程度的相关关系。方法:对107例CHD患者及48例对照组行选择性冠状动脉造影(CAG),并记录Gensini冠脉病变积分。CAG术
<正> 旋转电机防雷保护的一个十分重要的元件PBBM—3型阀避雷器已于去年年底试制成功; 在过去有许多旋转电机因缺乏此物而遭雷击,曾造成很大的损失。这种避雷器不同于一般的
针对档案公共服务现状和存在的问题,提出了加强档案公共服务协同创新能力,创新档案公共服务模式,打造档案公共服务软环境,强化档案公共服务意识,构建多领域全覆盖的档案资源
1 临床资料患者,男性,37岁,右利手,以左侧肢体无力6d为主诉入院.患者6d前饮酒醒来后发现左侧肢体无力,穿衣费力,走路向左歪斜.既往史:脂肪肝10年,吸毒(冰毒)史1年,已戒毒3个月.患者为过敏体
图书馆的网络安全是图书馆正常运作的前提条件,本文从计算机病毒对图书馆网络的危害性出发,具体分析计算机病毒的特征,并就此针对性地提出了解决的策略。 Library network s
早在2003年普通高中数学课程标准中首次明确提出“体会数学的文化价值”作为高中数学教学的核心理念以前,教育各界对数学文化的研究就已经逐步开展,对于数学文化的概念与认识也提出了不同的看法,随着课程改革的进一步实施,数学文化融入课程中的研究也日益增加,课标提出的在数学教学中体现数学的文化价值受到普遍认可,但在实际的教学中,大部分教师并没有真正将数学文化知识融入高中数学教学,教师缺乏真正理解数学文化知识
校直机是使用量大、应用面广的新兴产业,我所生产的ASC系列校直机是长春试验机研究所与日本国际计测器株式会社合作生产的产品。有自动、半自动二种机型,该机采用了日本技术
【正】城市化是19世纪以来,随着工业化而出现的一种全球性的社会经济过程。苏南地区的经济社会发展也正经历着这一进程。城市化是一种综合概念,包括人口形态、职业结构、用地