离群点检测及其应用研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:ah20090907
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的蓬勃发展及网络的日益普及,数据收集和存储技术快速发展带来的海量复杂数据,不仅导致了“数据危机”,还带来了“维数灾难”。随之而来的,在大数据时代为了消除噪声或发现潜在的、有意义知识的离群点挖掘技术引起了人们广泛的关注,具有极其深远的现实意义和广阔的应用前景。目前,针对数据挖掘中的离群点检测问题,国内外学者相继提出了很多的算法,为进一步深入研究奠定了基础。但是现有研究仍存在以下不足:(1)随着计算机的发展和数据库的日益庞大,传统的聚类方法在高维数据空间不能有效运行,且现有的基于距离的离群点检测问题受全局阈值设置的限制,只能检测全局离群点,难以有效挖掘局部离群点。(2)随着测量及采集设备的技术完善和数量的不断扩大,数据的来源及维数急剧增加,某些数据维数已达到成百上千位,现有算法难以有效的解决复杂的高维海量数据集下的离群点检测问题。本文以网络中复杂的高维数据为研究背景,针对以上存在的不足展开研究,主要工作及创新点如下:1.提出一种基于聚类划分的两阶段离群点检测方法寻找局部离群点,与传统的检测算法相比,本算法效率较高,为局部离群点的挖掘提供了一种新思路。该算法首先基于凝聚层次聚类计算出k-means聚类中的k值,再进一步采用k-means方法将数据集划分为若干个微聚类。为提高挖掘效率,给出采用信息熵的聚类筛选策略,排除不包含离群点的微聚类,最后通过基于距离的挖掘方法在剩余的微聚类中寻找出相应的局部离群点。实验结果表明算法具有较高的效率及检测精度。2.提出一种对高维数据进行离群点检测的算法-AROD算法,该算法可有效解决了高维数据的离群点挖掘问题。AROD算法首先利用信息熵对数据属性进行划分,对部分不重要的属性进行约简,保留能反映数据整体信息的重要属性,并利用重要属性及其权值(贡献程度)结合加权距离公式进行离群点的检测。实验结果表明该算法对多维数据的离群点检测是高效的。
其他文献
随着大型分布式系统的不断发展,人们越来越关注系统的可靠性。例如中国研制的天河一号系统、航空火车等分布式控制交通系统以及基于MPI的FT-MPI系统等。分布式系统不仅关系到
随着数字化技术的普及和互联网技术的飞速发展,数字媒体越来越深入到人们的生活和工作当中。矢量数字地图作为一种数字图像产品,因其占用空间小、放大不失真、数据精度高等特点
随着移动设备与无线网络技术发展,延迟容忍网络(DTN)[1]被研究者广泛关注。由于端到端网络无法持续连通,因此传统无线路由已经不适用于DTN环境。移动智能终端规模的逐渐扩大和
生物特征识别技术是基于人的生理或行为特征进行身份识别的技术。步态识别是一种新兴的生物特征识别技术,它根据人走路的姿势识别人的身份。与指纹、人脸、虹膜等生物特征相
随着嵌入式系统的不断发展,嵌入式控制系统也趋向于复杂化,针对嵌入式控制软件的逆向分析也变得越来越重要。通过汇编代码逆向分析,可以分析整个软件代码的架构、理解代码的功能
无线传感网络作为物联网的数据信息感知层,由大量传感器节点组成,节点能量受限和网络生存时间短是WSN的重要特征。为了提高无线传感网络的能量使用效率,并保存能量,设计能耗均衡
随着无线网络技术的快速发展和手持电子设备的日新月异,某些环境下传统的基于端到端的完整路径的通讯模式显然已经不再适用。一种新的网络体系应运而生。延迟容忍网络(delay to
车辆跟踪是智能交通系统(ITS,Intelligent Transportation System)中的重要技术,在图像的运动目标跟踪与识别中经常遇到车辆遮挡的问题,该问题是动态图像处理过程比较难以解决的
数据流聚类是数据挖掘领域的一个重要研究方向,其研究成果已被应用于诸多领域。然而传统数据流聚类算法不适应于不确定数据流,而且在聚类过程中不能对数据流中近期的数据进行详
近年来,随着互联网的进一步普及,电子商务一直保持着高速的增长状态,它不仅改变了人们的生活方式,还有力的推动经济的全球化进程。随着人们生活节奏加快以及对数据的实时性要求越