基于插值思想的高维稀疏数据离群点检测方法研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:sunyanzi168168168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点是指一个数据集中特征明显不同于其他数据的对象,其中往往蕴藏了一些重要的信息,在金融交易、入侵检测等领域具有广泛的应用。由于高维数据往往具有稀疏性,使得低维数据中表现良好的离群点检测方法在高维数据空间中效果受到很大影响。因此,本文借鉴插值思想,探讨了基于聚类的高维稀疏数据的离群点检测方法。(1)提出了一种基于插值的聚类算法IB k-means(Interpolation Based k-means clustering)。针对高维数据的稀疏性,通过样本遗传变异,对原始稀疏数据集进行插值操作,提高聚类效果,可有效支撑基于聚类的高维稀疏数据离群点检测。(2)提出了一种基于插值的高维稀疏离群点检测方法ODGA算法(Outlier Detection based Genetic Algorithm),应用IB k-means算法对高维数据样本进行聚类,然后判定距离质心最远的N个点为离群点。对比基于传统k-means聚类的离群点检测方法以及几种典型的基于改进k-means聚类的离群点检测方法,ODGA方法能够损失更少的正常点,准确区分正常和异常点,提高了检测准确率和精确率。(3)提出了一种基于LOF的局部离群点检测方法。针对在数据分布密度极度均匀的高维数据集上,基于聚类的方法在离群点检测方面的不足,结合ODGA算法和局部离群点检测方法(LOF),不但大大减少了LOF值的计算量,节省了大量的存储空间,并且提升了离群点的召回率。实验表明,利用插值思想改进高维数据的聚类效果是一种理想的选择,此外,文中提出的针对高维稀疏数据的离群点检测方法在提高召回率的基础上,也提升了检测的准确率和精确率,为未来高维稀疏数据的离群点检测提供一种新的思路。
其他文献
武器-目标分配(Weapon Target Assignment,WTA)是防空导弹武器系统的重要一环,直接影响其作战效能,甚至影响战斗的胜败。本文在已有研究成果的基础上对基于自适应大邻域搜索
数字图像是现如今用于信息传递的最主要形式。所以,很多图像处理软件也就应运而生,面向民众的图像处理软件在操作上十分的便捷,只需要通过简单的了解就能够掌握如何去使用这
随着空气质量的恶化,雾霾天气在我国广大地区呈现多发态势,雾霾问题已成为我国大气环境污染的主要问题。在雾霾天气条件下,雾霾中的悬浮颗粒具有散射和吸收的作用,使得室外图
煤层气是井下以甲烷为主的煤矿伴生气体,它易扩散,渗透性强,容易从邻近岩层穿过,由采空区放出。当空气中的含量为5%~16%时,煤层气可能燃烧或爆炸,是煤矿的主要灾害之一。国内
流形假设提出高维数据具有低维非线性流形的几何结构即流形,在此基础上,为了更好的刻画高维数据中的低维流形结构,本文阐述了收缩自编码器(CAE)方法对数据进行鲁棒建模的内在
配位聚合物(简写为CPs)因其可设计、周期性的拓扑结构,在吸附、荧光、催化等领域被广泛应用。其中,金属有机框架化合物(简写为MOFs)因其变化不穷的多孔结构,成为学者们的研究
纳米酶由于其高的稳定性、低的生产成本、好的生物相容性、可循环使用以及与传感底物结合产生良好信号变化等优点,在生物传感、环境处理、疾病诊断和治疗、抗菌剂、对抗细胞
阈值图像分割是图像分割领域中一个经典而有效的方法。但是由于现实图像的复杂性,如何对不同的图像快速有效地选择最佳的阈值一直是阈值分割研究中的一个优化性难题;而图像处
在传统数据分析处理中,监督学习方法使用已标注的数据样本集来构建预测模型,且其性能一般随标注数据数量增加而提升。然而,在很多现实生活场景中,采集到的数据往往是不带标签
随着微阵列技术和新一代测序技术等高通量技术的发展,产生了大量的生物学数据。而做为调控基因表达水平的重要因子之一,micro RNA逐渐成为目前研究的重点和热点,由于已有研究