数据挖掘中的离群点检测算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:frontwave
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测是数据挖掘中的一个分支,它的任务是识别其特征显著不同于其他数据的观测值。在我们平常的社会生活和自然界中,大部分的事件和对象,都是很寻常或者是平凡的。但是我们也不能因此忽视,在其中也有很多不寻常或者不平凡的对象存在的可能性。这些对象的事件背后可能蕴含着更大的研究价值,有着广阔的应用前景。因此,离群点检测是一个非常有意义的研究方向。目前,研究者们已经提出了很多离群点检测方法,包括基于统计的离群点检测方法、基于频率的离群点检测方法、基于深度的离群点检测方法、基于距离的离群点检测方法和基于密度的离群点检测方法等。本文分析了离群点检测的研究背景、意义和国内外研究现状,研究基于距离的离群点检测方法和基于频率的离群点检测方法,并改进了传统的离群点检测方法。属性通常可以分为两类,包括数值属性以及分类属性。本文详细分析了两种属性的区别,并做了以下工作:针对数值数据,对传统的基于距离的检测算法进行改进。传统的基于距离的检测算法输入参数多,而且算法对参数比较敏感,因此选择基于平均距离的离群点检测算法。针对这种算法计算量大,在大数据集中不适用的问题,根据如果数据对象r邻域内数据的个数达到k个以上就不是离群点的规则剪去部分非离群点,通过聚类,将类别按照密度进行排序,先选择密度小的类别开始检测,离群度阈值可以迅速增大,利用剪枝规则再次剪枝。这样可以大大减小运算时间。针对分类数据,分析了基于距离的算法的不足,介绍了针对分类数据的常用的离群点检测方法,包括基于频率的方法和基于信息熵的方法。指出基于频率的AVF算法的不足,提出改进的基于频率的检测算法。通过常用的针对分类属性数据的k-modes聚类算法对数据集进行聚类,去除相似度较高的对象,再通过基于频率的方法进行检测,以达到更好的检测效果。
其他文献
随着近年来数据的爆炸式增长,人们的日常生活已经处于一个被“大数据”所包围的情景,而且如果对这些海量数据进行高效的存储日渐成为一个重要的环节,在大型存储系统中如何保证数
表情识别是当前研究的热点方向之一,对于情感分析,人机交互,智能系统方面有重要的意义。人脸运动单元的识别是表情识别的基础,能更加精细的分析不同情感与精神状态下面部特征
全球化与知识经济的兴起推动了制造业的信息化进程,知识密集型的制造业得到进一步发展。制造产品的研发、设计、制造等过程积累了大量的工程文档,这些文档不仅是企业技术的积累
移动通信的业务从以语音业务为主到多种业务并存的巨大变化,标志着移动通信在人们的工作生活中的角色越来越重要。随着用户对通信带宽以及QoS需求的日益提高,频谱资源已变得严
本系统旨在引导和控制公路边模铺设机械,通过识别白色导向线对边模机械进行导向,使其按照预设的轨迹行驶。该系统由自动导向子系统、传输控制子系统和远程控制子系统三部分组成
随着多媒体技术、计算机网络及通信技术的迅猛发展,多媒体信息呈爆炸性增长,国内外学者对基于内容的图像检索技术展开了广泛而深入的研究同时取得了突破性的成果。近年来,随
随着信息技术的发展,产生了大规模的网络数据,这为进行大规模的网络分析研究提供了充足的数据。近几年网络挖掘的研究迅速崛起,并发展成为一个很热门的研究领域。链接预测是
水声传感器网络是一个新兴的研究领域,可应用于海洋数据搜集、污染监控、近海勘探、灾难预防以及分布式战术监测等,有着广阔的应用前景。介质访问控制(MediaAccess Control,MAC)
声纳技术在海洋通信和水底探测等领域得到了广泛的应用,水声系统是声纳系统的重要设备。通常,水声系统由信号源、功率放大器、匹配网络和水声换能器四部分组成,网络匹配问题是水
在分布式系统中,对临界资源的访问是需要互斥进行的,所以分布式系统中最先要解决的问题是分布式互斥算法。分布式互斥算法主要分为两类,分别是基于竞争的和基于令牌的分布式