基于投影的高维数据异常检测研究

被引量 : 0次 | 上传用户:chjl0620
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是从大量的数据集中提取隐含的、未知的、潜在有用的知识的过程。异常检测是数据挖掘中一个非常重要的分支,能发现隐含在数据集中的小模式,这种小模式常常隐含着重要信息,在很多应用领域有重要的研究价值。如电信和信用卡交易中的诈骗检测、天气预报中的灾害预报、网络访问中的入侵检测等。在实际应用中经常会碰到高维数据,如交易数据、文档词频数据等,因此加强对高维数据挖掘的研究有着非常重要的意义。但由于高维数据的特殊性,如随着数据维数的升高,高维索引结构的性能迅速下降;由于高维数据的稀疏性,采用LP距离作为数据之间的相似性度量,在很多情况下这种相似性的概念已不复存在等等,这些都给高维数据挖掘带来了极大的困难。很多常规聚类算法虽然能进行异常检测,但仅仅将异常点作为聚类的副产品。近几年,出现了一些专门的异常检测算法,在理论上和算法应用上有一定的突破,但主要针对低维数值型数据集的研究。现实世界中,很多数据集具有内在高维特性,使得这些算法检测性能急剧下降,而且算法对异常点的解释相对滞后。本文针对目前主流的异常检测算法存在的问题,对异常检测技术进行了深入研究,指出了这些算法在高维数据集应用上存在的缺陷,并基于投影思想和频繁项集的概念,提出了一种新的异常检测算法OHDHMAP,该算法不仅能较好地解决高维数据集的稀疏性问题,也能将数据集的类型从数值型扩展到混合型,并且能对异常点作出一定的解释,有利于区分异常点和噪声。实验表明,该算法具有较好的检测性能。本论文针对对异常挖掘的研究,对高维数据异常检测提供了新的思路,初步探讨了异常的可解释性问题,具有一定的理论意义和应用价值。
其他文献
交通运输是国民经济的基础性、先导性产业,该产业的发展水平与国民经济的发展有着极为重要的联系。我国在改革开放后,工农业生产迅速发展,经济基础日益增强,随着城市化进程以
人类积聚在城市里生活,每天都在感受城市。城市本身也是人们能感受、接触和观察到的城市形象要素的表现体系。通过城市形象内部各子系统间的整合,可以形成城市特色,其中很重
我国粮食数量与质量安全问题严重。由于人们饮食结构改变,导致大量粮食转化成肉类。传统解决方法是,扩大种植面积、增加投入、提高产量,问题是污染了水源、土壤,农业灾害增加
文章通过对五轴联动龙门加工中心现状的分析,总结了机床总体结构特点,找出了国内外机床在技术上的差距,提出了高端机床发展的相关理念。并结合市场现状大胆的提出机床市场发
降低杆塔冲击接地阻抗是提高输电线路耐雷水平、降低雷击跳闸率的重要措施之一。目前采用的工频接地电阻乘以冲击系数得到冲击接地阻抗的方法与实际工况存在差异,随着接地体
1宠物处方食品应用现状宠物处方食品,顾名思义,这种宠物食品既具有治疗疾病的处方功能,又具有一般食品的营养功能,也就是以控制营养的方式来管理疾病。
本文主要阐述矩阵在数据结构中的应用。随着计算机应用范围的不断扩大,数学方面的知识也越来越多地融入到计算机应用中.两者互相渗入.互相融合,为彼此的应用开辟了广阔的前景。
大别山野生杜鹃是大别山区宝贵的自然资源,属于重点保护植物。本文从苗圃选择与准备、插穗选择及处理、扦插、插后养护管理等方面阐述了大别山野生杜鹃的扦插技术,以期为推广
本文通过基于欧拉-拉格朗日方法相结合的数学模型描述颗粒间作用力,利用文献实验结果验证该数学模型的有效性。模拟结果清晰展现了稠密相气力输送过程中栓塞流,沙丘流和分层
当今翻译研究的重心正在向语言外部研究偏移。这说明翻译过程中不仅要注重语言层面的转换,还要把其他因素,诸如译语语境中的文化、历史、审美价值观等考虑在内。许多西方学者