基于距离的离群点检测方法研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:xiaokexiaoai1314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测是数据挖掘和数据管理领域中一个非常重要的研究问题,其主要目标是从复杂数据环境中快速准确地检测出数据中不符合正常(期望)行为的离群点数据,为用户深入分析和理解数据提供支撑。针对待检测数据集的数据量大、数据维度高、数据分布不均衡和数据离群程度难以度量等问题,本文主要开展了以下两个方面的研究工作。  1、为了提高对多属性数据集离群点检测的适应性,提出了一个有效的离群点检测方法,即基于多属性聚类和局部密度的离群点检测方法。该方法首先利用数据对象的局部密度峰值确定聚类中心,并利用聚类相异度对数据对象的归属性进行判断,将其划分到由离它最近的聚类中心确定的簇中,从而对数据对象进行聚类。其次将归属于不同簇且位于簇边缘的数据对象标记成候选离群数据集合。最后把候选离群数据对象用本文提出的基于多属性聚类和密度的离群点检测方法得到其离群点判断因子,并确定TOPN个候选离群点数据对象为最终的离群点。通过真实数据集进行实验,并与经典的K?means、DBSCAN和LOF算法进行对比分析,验证了该方法在多维数据集上有较好的离群点检测效果。  2、针对多维数据集的数据处理时间复杂度高,数据的离群点程度难以度量等问题,提出了基于距离加权和的离群点检测方法。用一种离群点分类的思想,将数据对象直接划分成离群点和非离群点。该方法首先利用离群点具有偏离总体数据集有较远距离的属性,将所有数据点对象与其邻域数据点的距离进行加权求和,其次将那些加权距离和值大的数据对象标记为候选离群点,最后将候选的离群点用本文的离群点判断方法确定是否为最终的确定离群点。通过真实数据集进行实验,并与经典的LOF、ABOD和SVM离群点检测算法进行对比,验证该方法在时间复杂度和离群点检测性能上有着明显的优势。  以上是本文提出的两种算法,第一种方法是间接地从聚类的思想出发对离群点进行检测,在检测率和准确率等指标有很好的性能;第二种是直接地从每个数据对象的离群程度出发,以数据点与其邻域数据对象的距离来定义离群程度,该方法在时间复杂度和AUCPR等指标方面有很好的性能。
其他文献
近年来,随着无线通信技术的快速发展和应用,频谱资源日益稀缺。其中卫星通信系统已经由传统的C、Ku等低频段向更高的Ka频段转移。相较于C、Ku等低频段,Ka频段具有频谱资源丰富、
近年来,随着无人机的应用越来越广泛,无人机的相关技术也在飞速发展。无人机图像传输系统作为无人机系统的重要组成部分,迅速成为无人机领域中的一个研究热点。COFDM(编码正交频
目前全球卫星导航系统已经广泛应用于室外定位,但是由于卫星信号易受建筑物影响,很难应用于室内定位。当在室内无法接收到卫星导航信号时,要实现高精度的室内导航定位依然是一个
蜂窝通信系统中小区内用户间干扰可采用正交频分多址接入技术(Orthogonal Frequency Division Multiple Access,OFDMA)消除,但系统频率复用因子为1,小区间仍然存在着比较严重的
随着网络流量和各种业务类型的快速增长,特别是网络上多播类应用的爆炸式增加,核心交换设备的性能已成为网络发展的瓶颈之一,其容量、速率及QoS保障都面临严峻挑战,研究新的交换
现有的定位技术,无论红外线、超声波、蓝牙、超宽带、WiFi还是地磁场等多种室内定位技术,存在系统成本高或者定位精度差等问题。其中,基于WiFi的定位技术,易受到室内环境的干扰,而
近年来,无线通信技术在全球得到快速的发展,特别是近期4G(第四代移动通信技术)也已经开始投入商用。协作通信技术可以克服无线通信技术中多径衰落的影响,极大的改善系统性能,一直是
物联网从提出到现在已经逐渐应用到人们工作生活的方方面面,智能信息服务是人们亟需的一种服务,也是当前物联网技术应用的一个重要研究方向。然而,随着物联网应用的不断推广,数以
本文主要研究对环肋可展开天线结构的实际测量,由于天线尺寸比较大,由轻质柔性材料制作,且容易变形,考虑采用非接触式测量。本文综合运用计算机视觉、摄影测量学和图像处理等前沿
信息化是我国制定长期发展战略的第一选择。当前的信息化进程存在以PC为代表的知识门槛高、价格门槛高、功耗高、资源利用率等问题。建立的云数据中心大都存在资源利用率相对