基于密度的局部离群点检测算法的研究与改进

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:yesky556
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点是指数据集中和常规数据对象的产生机制完全不同的,不符合数据的一般规律,偏离常规数据对象的数据点,但是它们又可能包含着我们容易忽略的非常重要的信息。如在信用卡欺诈侦查、移动通讯等领域中,离群点是我们研究的主要对象。离群点会使我们从新的角度考虑问题,从而发现新的理论或者应用。离群检测技术具有重要的研究价值且广泛的应用在药物研究、用户行为分析、网络入侵检、股票证券交易、工业减损、金融等领域中。在金融分析中通过分析交易数据,检测是否存在金融欺诈;在市场分析中可用于确定极低或极高收入客户的消费行为,进而对客户分析、分类,然后对市场进行定向和预测;在医疗分析中在医疗分析中用于发现多种治疗方式的不寻常反应等。目前如何在大规模高维数据集中迅速有效地发现并处理异常对象成为一个很值得研究且很具有挑战性的问题。离群点检测的算法有很多,大体上可以分为:基于统计学的、基于距离的、基于密度的和基于偏移的离群点检测算法等。目前人工智能,机器学习和模式识别等领域发展越来越快,越来越多有效、新颖的离群点检测方法和技术也随之出现,包括自组织映射技术,人工神经网络技术,模糊粗糙集技术和分区技术等。然而现有的大多数离群点检测算法在一定程度上均存在一些缺点:检测精度不高,时间复杂度高,参数的设置对用户的依赖性比较强和算法的可伸缩性差等。针对大多数算法的检测精度不高,时间复杂度高局限性和算法的可伸缩性差的不足,本文在基于密度的局部离群点检测算法研究基础上提出了一种改进算法:(1)改进算法通过使用多组不同的参数得到不同的DBSCAN聚类结果,再对聚类结果进行整合,剪枝,得到初步异常数据集。使用多组参数进行聚类的目的是为了避免位于簇边缘的数据点被错剪,这样既能达到降低计算复杂度的效果,又能保证检测的精确度;(2)引入去一划分信息熵增量的概念,对数据对象的属性加权量化,给不同贡献度的属性分配不同的权值。之前的检测算法中属性的权值都是由专家决定的,有很大的人为因素,这就会对检测结果有很大的影响,去一划分信息熵增量就很好的解决了这一问题,也能更好地对高维数据集进行降维,使改进的算法对数据集维度有很好的伸缩性;(3)在DBSCAN的ε-邻域的查询过程中和计算局部离群因子的过程中使用邻域查询优化思想,能有效的缩小邻域的查询范围。(4)改进算法的有效性在真实数据集和模拟数据集的仿真实验中得到了验证。
其他文献
学位
多智能体网络的一致性与稳定性是复杂系统的两种主要动力学行为,同时也是复杂系统协调控制的前提与根本性问题。随着多智能体网络的一致性问题在诸如无人机、无人驾驶车辆、大
本文在介绍嵌入式系统软硬件相关技术的基础上,重点论述了开放源代码的嵌入式实时操作系统 uC/OS-II基于 ARM微处理器的移植与实现设计。笔者首先分析了uC/OS-II的源代码,对
数据挖掘的基本含义就是从海量、不完全、有噪音的数据中获取对用户来说有直接或间接价值的信息。聚类分析的显著特征就是不需要任何先验知识或信息,只是根据事物之间的某些
万有引力搜索算法(Gravitational Search Algorithm, GSA)是由伊朗克曼大学的Esmat Rashedi等人于2009年所提出的一种新的启发式优化算法,其源于对物理学中的万有引力进行模
无线传感器网络(Wireless Sensor Network, WSN)技术作为21世纪具有巨大影响力的技术之一,已经成为当今世界前沿科技的研究热点,ZigBee作为设计WSN的主流协议,也同样备受关注
随着智能手机的不断普及与手机上网用户的持续增多,个人手机安全问题越来越多的得到了关注。Android平台作为近几年来新兴的手机操作系统,市场占有率达到智能手机的一半以上
运动目标的跟踪与识别作为计算机视觉的一个核心研究课题,相关算法如雨后春笋般出现。跟踪的目标及场景的差异,导致跟踪算法的选择也不尽相同的,这就需要在算法设计阶段能够
图像分类在计算机视觉研究领域中是一个热点问题,一直以来备受学者关注,尤其是近些年来,数字图像的规模呈现爆炸式增长态势,图像分类已成为许多领域的一项关键任务,因此其研
WLAN已经成为国内三大运营商的建网重点,运营商对WLAN网络的建设已经从初期的建设期发展为建设与运营并行考虑的时期,既要考虑如何在扩建、提速下有效维护、优化WLAN网络,实