KNNOI在缺失数据补值中的应用

来源 :计算机与应用化学 | 被引量 : 0次 | 上传用户：lifengno1

【摘要】

：

KNN是常用有效的分类算法,在数据分类及故障诊断中有很多的应用,同时KNN也被应用于缺失数据的补值算法中。传统的KNN方法通过计算数据点之间的欧式距离并排序,得到K个距离最

【作者】

：

孙怀宇冯恬京李元

【机构】

：

沈阳化工大学,

【出处】

：

计算机与应用化学

【发表日期】

：

2016年04期

【关键词】

：

KNN算法数据补值缺失数据基于排序 KNN algorithm data imputation missing data variable order

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

KNN是常用有效的分类算法,在数据分类及故障诊断中有很多的应用,同时KNN也被应用于缺失数据的补值算法中。传统的KNN方法通过计算数据点之间的欧式距离并排序,得到K个距离最近的点,通过K个点的数值对缺失值进行补值计算。但在此过程中,距离的计算受到变量数据分布的特点及不同变量数据分布不一致等的影响,从而影响补值结果。本论文提出了一种基于次序的KNN计算方法 KNNOI(KNN based on Order Imputation),通过对变量进行排序,应用变量的排序序号差计算数据点的距离,代替原来的距离计算方法。将此算法应用于数据补值,研究了排序方式及参数的选择对补值的影响,与传统的KNN算法进行了比较。实验结果表明,基于排序的算法补值得到的结果要优于传统的KNN方法。 KNN is a commonly used and effective classification algorithm, which has many applications in data classification and fault diagnosis. At the same time, KNN is also applied to the complementary algorithm of missing data. The traditional KNN method obtains the K nearest points by calculating the Euclidean distance between the data points and complements the missing values by the value of K points. However, in this process, the calculation of the distance is affected by the characteristics of the data distribution of the variables and the inconsistent distribution of the data of different variables, thereby affecting the replacement value. In this paper, a KNNI (KNNI on Order Imputation) method based on order is proposed, which ranks the data points by sorting the variables and using the ordinal number difference of the variables instead of the original distance calculation method. The algorithm is applied to the data complement, the influence of the choice of sorting method and parameters on the complement is studied, and compared with the traditional KNN algorithm. The experimental results show that the result of recursion based on ranking algorithm is superior to the traditional KNN method.

其他文献

水稻抽穗期叶色诊断指标与叶面积指数及结实期光强的关系

叶色是氮素营养诊断最常用的指标,获得准确的叶色诊断指标是水稻精确定量施氮的基础。叶色诊断指标实际上就是稻谷产量最高时的最适叶色。已有报告指出,叶色诊断指标受到群体

期刊

叶色诊断指标氮肥光照叶面积指数水稻

脂肪细胞因子对机体能量代谢及脂肪积累的调节

脂肪细胞因子是当今国际医学界的研究热点。现已发现人类脂肪细胞分泌几十种脂肪细胞因子(adipocytokines),它们在体内发挥着脂肪体积传感器的作用,同时通过影响机体的能量代

期刊

脂肪细胞因子脂肪积累肥胖能量代谢

优质杂稻宜香优527的产量特性及栽培技术

优质杂稻新组合宜香优527于2004~2005年参加全国南方稻区长江中上游优质组区域试验,两年结果产量居第1、2位。2005年在多点生产示范中,表现出高产、稳产、适应性强等特点,在

期刊

优质杂交水稻宜香优527产量栽培技术应用前景

胃北旱塬深层土壤水分特征对水分生产效率的影响

采用田间试验和观测方法研究了渭北旱塬东部旱作区的农田土壤水分特征和水分生产效率,结果表明,该区在麦田夏闲蓄水期(7-9月)降水量在212.7mm以下时,1～1.2m深处存在一相对干土

期刊

干土层蓄水期水分生产效率

非洲马瘟病毒VP7基因的克隆与表达

为获得非洲马瘟病毒VP7蛋白,以用于制备AHS血清学诊断试剂并为AHS新型疫苗的构建奠定基础,笔者采用原核表达系统表达VP7蛋白.在GeneBank中查找非洲马瘟病毒VP7基因序列,人工

期刊

非洲马瘟病毒VP7基因克隆表达

串珠镰刀菌粗毒素对小麦种子萌发及幼苗根系的毒害研究

串珠镰刀菌是小麦根腐病病原菌之一。利用串珠镰刀菌毒素对小麦种子萌发及幼苗根系胁迫处理,研究表明:毒素对小麦萌发率和胚根、胚芽生长起着明显的抑制作用,且毒素浓度越高,

期刊

串珠镰刀菌粗毒素小麦相对电导率

氨基酸对利用红色糖多孢菌发酵生产红霉素的产量及组分影响研究

研究红色糖多孢菌发酵生产红霉素过程中几种氨基酸对产量及组分的影响.通过摇瓶实验证实了0h时向合成培养基中分别添加数种氨基酸,对红霉素的产量与组分都有着重要的影响.本

期刊

红霉素氨基酸发酵产量组分

超级稻新组合黔南优2058

介绍黔南优2058的特征特性,并根据大面积连片栽培示范总结高产栽培技术要点:(1)旱育叶蘖同伸矮壮秧;(2)合理密植,足苗浅插匀栽;(3)平衡配套施肥、施全肥、重底肥、早追分蘖肥

期刊

超级稻特征特性高产栽培技术

Construction of a chimeric hepatitis C virus replicon based on a strain isolated from a chronic hepa

期刊

hepatitis C virussubgenomic repliconmutation

LabVIEW软件在储氢材料性能测试装置的泄漏率评价中的应用

储氢材料性能测试主要包括PCT曲线和动力学曲线的测试,一般采用基于容量法原理的测试装置完成。由于测试方法决定测试结果对氢气泄漏非常敏感,因此在进行相关测试之前有必要

期刊

LabVIEW软件储氢材料测试装置泄漏率LabVIEW softwarehydrogen storage materialtest apparatu

KNNOI在缺失数据补值中的应用

其他学术论文