聚类和孤立点检测算法的研究与实现

来源 :南京航空航天大学 | 被引量 : 0次 | 上传用户:johntoo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘技术可以从大量数据中发现潜在的、有价值的知识。随着数据挖掘技术的迅速发展,聚类分析和孤立点检测技术已经广泛应用于模式识别、数据分析、图像处理、市场研究等许多领域。聚类及孤立点检测算法研究已经成为数据挖掘领域非常活跃的一个研究课题。本文介绍了数据挖掘理论,对聚类及孤立点检测算法进行了深入地分析研究。在分析了基于密度的聚类算法和基于密度的孤立点算法的基础上,提出了基于对称邻域的孤立点检测算法(ODBSN)和基于r-邻域的聚类算法(RNBC)。在ODBSN算法中,引入了反向k-近邻的概念,设计了基于对称邻域的孤立因子检测算法,提高了基于密度的孤立点检测算法的效率。ODBSN算法不需要计算数据对象的可达距离和可达密度,大大降低了计算复杂性,同时基于对称邻域的孤立因子(SNOF)对孤立点的度量,提高了孤立点检测的准确性。在RNBC算法中,引入了相对密度因子的概念,设计了一种新的基于密度的聚类算法。与聚类算法DBSCAN相比,该算法有两个优势:第一,算法利用相对密度因子来区分局部核心点与局部边界点,根据局部数据分布进行聚类,从而获得了多密度级别的类;第二,算法利用相对密度因子衡量一个点的孤立程度,使得算法在聚类同时还能有效地检测出孤立点。本文用Java实现了ODBSN算法、RNBC算法、LOF算法和DBSCAN算法。实验结果表明,ODBSN算法和RNBC算法能够分别准确、有效的发现孤立点和聚类,并在检测效果上分别较LOF算法和DBSCAN算法有一定的优越性。
其他文献
在现代远程教育的迅速发展的过程中,由于经历了网站构建技术的不同时期,很多教育网站的实现技术、构筑平台及系统架构都相差甚远。本文研究的重点是如何实现尽可能地保留已有的
多视点视频(Multi-view Video)是能够提供立体感和交互操作功能的新型视频系统,它能够提供场景对象在不同观察角度下的视频图像信息,并可根据使用者的需求自由选择和操作视听对象
当今社会是数字信息化时代,各种数字多媒体信息包括文本、图像、声音、视频等等在网络上广泛传播。但是网络上的信息很容易被随意复制及修改,侵权问题日益严重,各种信息的版权保
操作系统的安全对于计算机系统的安全具有举足轻重的作用。而在操作系统的诸多子系统中,审计系统又为最后一道安全防线。现有的审计系统主要可以分为两类:操作系统自带的以及
面向服务架构(SOA)的兴起为企业应用集成指明了新的发展方向,而企业服务总线(ESB)作为面向服务架构的最佳实现方式提供了服务集成的主要功能,如消息路由和数据格式转换等。服务路由
随着嵌入式系统软硬件技术不断的发展,它们的影响已经深入到社会的许多方面,也使得工业控制系统的结构发生了很大的变化。新的硬件平台和通信技术在变电站系统中应用,使得变电站自动化系统也得到了快速的发展。本论文主要就变电站自动化系统中保护监控平台的通信和设计等问题展开研究和探讨。本文首先回顾了变电站自动化技术的发展历程,论述了当前变电站自动化的现状及存在的问题,说明了新的硬件平台和快速以太网应用到变电站保
根据逆问题理论,本文利用旋转X射线造影数据进行基于运动补偿的三维冠状动脉重建算法研究。首先,本文对逆变换问题在有限维与无限维下的情况分别予以讨论。对于无限维情况,我们
警觉度是指人集中精力对刺激保持警惕并且维持一段时间的能力。在日常生活中,有时候我们需要维持一定的警觉度。譬如,驾车时我们就必须时刻保持清醒状态。所以,我们需要一种能够
随着控制系统应用领域的日益扩大,网络控制系统的研究越来越受到人们的广泛关注。网络控制系统的特点是参考输入、对象输出和控制输入等信息在控制系统各部件间(传感器、控制
随着一些新的控制器,如以ARM系列控制器为代表的RISC控制器的出现,使得DCS控制系统的架构设计有了更多的选择,新架构的DCS控制系统具有更高的稳定性和更高的性价比。 本文首