关联子空间离群点挖掘研究

来源 :江苏大学 | 被引量 : 0次 | 上传用户:aiwuziji
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的基于全维空间的离群点挖掘技术受“维灾”影响,不再适用于高维数据。为了从高维数据中发现有意义的离群点,学者们提出将高维空间的数据投影到子空间上进行离群点挖掘。子空间离群点挖掘目的是在任何可能的属性子集中检测离群点,对于高维数据而言穷举所有可能的子空间进行离群点挖掘是不可行的。事实上,并非所有子空间都存在离群点,如果子空间中数据随机均匀分布,则该子空间不存在离群点,就可在离群点挖掘过程中忽略处理。关联子空间离群点挖掘正是在这个基础上提出的,旨在搜寻分布不均的、更可能存在离群点的、关联性高的子空间进行离群点挖掘。  已有的局部关联子空间离群点挖掘方法的主要局限是:(1)无法反映子空间的关联程度,对子空间是否关联进行0-1判断导致子空间选取不准确,且采用类似穷举的方式搜索子空间导致时间复杂度高。(2)未考虑大量不大可能构成数据点关联子空间的属性的影响,在全维属性集合中搜索子空间,导致不必要的时间开销,且所得子空间质量降低致使离群点挖掘精度降低。  针对上述问题,本文采用数据点及其邻域在各维属性投影上的最大非均匀分布程度衡量子空间的关联性,采用自底向上的方式搜索子空间。为了进一步提高算法的有效性,根据数据点及其局部邻域在属性投影上的取值分布计算属性的局部信息熵,只选取局部信息熵高的属性构成候选属性集合,并基于该候选属性集合搜索子空间。论文主要工作如下:  (1)提出局部关联子空间离群点挖掘算法RSOM(Outlier Mining in RelevantSubspaces)。采用数据点及其邻域在各维属性投影上的最大非均匀分布程度衡量子空间的关联程度,以增加子空间选取的鲁棒性,进而提高离群点挖掘精度;采用自底向上的方式搜索子空间,以降低子空间搜索的时间复杂度。实验结果表明,RSOM大大降低了时间开销,显著地提高了离群点挖掘精度。  (2)提出基于局部信息熵的关联子空间离群点挖掘算法LERSOM(LocalInformation Entropy based Outlier Mining in Relevant Subspaces)。从信息熵的角度考虑离群点在某些属性上取值的不确定性,根据数据点及其局部邻域在属性投影上的取值分布计算属性的局部信息熵,只选局部信息熵高的属性构成数据点的候选属性集合进行离群点挖掘,减少了需要处理的子空间数量并提高了所得子空间的质量。实验结果表明,LERSOM获得较高的挖掘精度,且时间开销减半。  (3)采用模块化的设计方式,设计并实现了关联子空间离群点挖掘原型系统,在可视化环境下进行实验操作,以便检验本文所提方法的效果和性能。对系统的测试结果表明,系统运行良好,达到预期目标。
其他文献
IPSec、NAT、NAT-PT和防火墙在特定的应用领域都是不可缺少的。IPSec保障了IP包在传输过程中的安全性,能够为IP包提供数据源认证、完整性保护、加密性和抗重放攻击等安全服务
在分布式协作开发环境中进行系统设计工作时,要求不同的设计工具之间能够相互衔接与协作,从而使得设计任务的流程能够平滑相连。使用Web服务技术,将工具的功能包装为服务,并
现如今是信息爆炸和资源共享的时代,随着虚拟现实技术的快速发展,传统博物馆展示设计理念早已无法满足时代的要求,由此虚拟博物馆应运而生。虚拟博物馆作为博物馆建设进程中的重
无线局域网技术使得网络的接入方式不再受物理线路的局限;嵌入式技术使得通信设备向着微型化、低功耗和高性能的方向发展。地铁移动WLAN系统正是无线局域网与嵌入式技术集成
随着软件系统的日益复杂,软件开发、维护以及进化的大部分工作和主要成本集中在对现有系统的理解上。逆向工程是一种辅助程序理解的重要手段,是软件工程的一个重要分支,它通
一直以来,主分量分析(PCA)是一个倍受国内外学者关注的科研课题,它能找到一种可逆的正交变换,使原有的高维数据投影到较低维的数据空间中,并保留数据的主要特征。目前PCA已经
随着信息管理系统的深入研究和发展,其应用领域和管理范围被不断拓宽,多种多样的应用需求不断对信息管理提出新的挑战。具有独特的数据结构和信息管理需求的各种特定应用领域,提
随着网络技术的发展和信息化的推进,Web上的信息在不断增加和深化,按其所蕴含信息的深度可以被划分为浅网(Surface Web)和深网(Deep Web)两类。相对于Surface Web,Deep Web中的信息
脸是体现人美观的一个极其重要部位,颌面外科手术作为修复面部畸形的手术越来越多地被人们所重视。颌面外科的手术一般都是通过提供力的约束来使面部形态恢复正常。因此应力
无线传感器网络的普遍工作方式是首先把大量的传感器撒播到要监控的区域,然后节点间通过某种路由方式将感知的数据传给网外的基站供用户查询,因此为用户提供一种快捷简便的数