基于密度偏移抽样的枢纽度异常检测算法的研究

来源 :郑州大学 | 被引量 : 0次 | 上传用户:liongliong441
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的快速发展,数据量呈数以亿计的数量级增长。在这些数据中,正常数据点反映了数据的整体变化趋势,但异常数据点可能提示更重要的信息,如信用卡数据异常可能意味着信用卡被盗刷等等。因此,检测出正确的异常点可以正确识别数据提示的重要信息。由于数据类型和产生数据的形式多种多样,使得产生异常数据的原因各不相同,这增加了异常检测的难度。大多数现有的异常检测算法虽然在低维数据中有较高检测精度,但是随着数据特征的增多,检测精度逐渐下降。针对这一问题,本文从枢纽度和异常得分之间的关系出发,并且加强数据特征之间的关系提高异常检测算法精度。同时考虑采样时保留原数据集中数据分布特征,最后提出了基于密度偏移抽样的枢纽度异常检测算法DDHOD(Density Deviated Hubness Outlier Detection)。本文主要的研究内容包括:(1)大多数现有的异常检测算法在高维数据中失效的原因不仅是距离参数失效或者异常得分失去参考价值,高维数据特征之间的关系也影响到了异常检测算法精度。为了提高异常检测算法的检测精度,本文提高数据特征之间的关系对算法进行优化。同时,目前的采样策略大多以均匀采样为主,使最终的采样结果难以充分的表现出原始数据集中数据分布特征。因此,本文采用密度偏移抽样策略,在优化异常检测算法性能的基础上使得最终采样结果能够充分表现原始数据集中数据分布特征。(2)现有的异常检测算法大多仅从低维数据这个角度出发,难以避免数据特征增多带来的灾难,使得异常检测算法在低维数据中有较好的检测精度,但在高维数据中逐渐失去有效性。针对此问题,本文从多种规模数据集的数据特性出发,利用枢纽度和数据点异常得分之间的关系进行异常检测。(3)提出了基于密度偏移抽样的枢纽度异常检测算法DDHOD。通过在四个真实数据集上的实验结果表明,本文中的算法在ROC AUC指标以及收敛性上均有较好的检测效果。同时通过在人工合成数据集上的实验结果表明,本文算法检测精度不受不同密度数据及不同分布模型数据的影响。
其他文献
随着互联网的发展迎来大数据时代,使数据量呈现指数级增长,如何在众多数据集中选择满足用户兴趣的数据成为重点研究内容。skyline查询在多目标决策中成为该领域的热门研究点,
教学评价是根据教学目标对教学过程及结果进行价值判断并为教学决策服务的活动,是研究教师的教学工作和学生的学习效果的过程。教学评价包括评教和评学两个核心环节:评教是指
伺服控制技术在工业制造和日常的生活当中有着非常广泛的应用,如数控机床、工业自动化、机器人等领域。随着微型处理器和电力电子技术的快速发展,高性能单片机以及DSP等芯片的出现,促进了数字化控制伺服系统的快速发展。同时,矢量控制技术和直接转矩控制技术的提出与发展,使得交流电机的控制更加简单,为交流电机伺服控制技术的发展奠定了坚实的基础。伺服控制系统正向着高性能、高精度发展,因此研究先进伺服控制技术具有十
合成孔径雷达(Synthetic Aperture Radar,SAR)具有全天候、全天时、高分辨率、穿透能力强等工作优势及特点,越来越受到人们的关注,在军事和民用方面广泛应用。合成孔径雷达成像是将其探测到的场景目标回波转化成精确的目标图像,以便更加直观的观测场景的信号处理技术。SAR系统接收到的雷达回波数据是散焦的,其基本信息隐藏在相位里,所以需要成像算法处理获得聚焦图像。但是回波数据一般情况下
基于流程模拟数据,实时寻优操作参数,以实现石化生产过程操作优化是当今石化生产过程提高产品收益、节能降耗的重要方法。其中作为优化计算工具的遗传算法(GA)起到了重要作用
近年来,多自主体系统的协作式输出调节问题受到了控制领域的广泛关注。该问题可以刻画为:给定一组多自主体受控对象、外系统以及一个连通的网络通信拓扑,设计分布式控制器使得系统能够实现渐近跟踪一类参考输入的同时抑制一类干扰信号。本文考虑利用鲁棒控制和自适应控制两种方法实现线性不确定多自主体系统的协作式输出调节问题,具体概括为:1.利用鲁棒控制方法解决线性多自主体系统的协作式输出调节问题。对于单输入单输出系
在许多领域,诸如:模式识别和机器学习,数据的维数可能成千上万。主成分分析(Principal Component Analysis,PCA)是进行降维和特征提取的一个广泛使用的工具。通过PCA对高维数据
与传统的三轴数控机床相比五轴联动数控机床拥有两个旋转轴,在机床运行过程中与三个线性轴配合共同完成加工,且在面对刀具干涉和碰撞时也具有较好的处理方式,并能获得更好的
农林复合系统作为一种高效农业发展模式,可以协调生态建设与粮食供求、经济增长的平衡关系,在受环境条件制约地区极具应用和推广意义。本研究以安塞地区农林复合系统为研究对
在当前我国农业转型的背景下,各地掀起了大规模的农地流转,本文采用个案研究,通过对皖南新村的实地调研,以深度参与和半结构访谈的方式收集资料并考察了当地的农地流转实践。研究发现,新村以2011年土地整治项目为分界点,形成了两种不同类型的农地流转模式,即农户主导下的农地自发流转模式和行政干预下的农地集中流转模式。这两种不同类型的农地流转实践也相应地产生了两种类型的农业经营主体,即农地自发流转形成的中坚农