基于采样特异性因子的实时异常检测

来源 :太原理工大学 | 被引量 : 1次 | 上传用户:cz9104
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术、信息技术的发展,各个领域的信息量急剧增加,数据挖掘处理的数据规模越来越大,同时对数据实时处理需求不断增加。特异性数据挖掘是数据挖掘和知识发现的重要组成部分,特异性数据中往往蕴含着重要信息,包括噪音、故障、入侵等,随着人们对欺诈检测、网络入侵、故障诊断等问题的关注,实时异常检测日益受到重视。异常检测技术有基于统计、聚类、距离、密度等方法,在精度和速度要求都比较高的场合下,这些方法均有一定的局限性。基于此,本文使用采样特异性因子(Sample peculiarity factor, SPF)将基于距离和密度的方法融合起来,并充分考虑数据分布的特点,进行异常检测。实验结果表明基于采样特异性因子SPF的异常检测算法在精度影响不大的情况下,节约了计算时间,提高了计算速度,适合用于实时异常检测。论文的主要工作:(1)从数理统计的角度,分析采样方法的异常检测算法,并为其提供精度保证。将采样算法与传统的基于距离K—NN算法相结合,通过分析采样算法返回的离群点的期望和方差进行质量度量,并构造距离数据库D’近似计算总体的情况,即用样本方差估计总体方差,从而给基于采样特异性因子的异常检测提供了理论基础。(2)提出了学习最优采样频率算法。论文通过选择一定的采样方法,在数据集中折半学习采样频率,在给定置信度的前提下得到采样频率的置信区间,即最优采样频率范围。这样就可以根据采样频率,获取采样子集,进行异常检测。实验表明,当采样频率在[1/32,1/16]之间时,将基于采样特异性因子的异常检测算法与基于特异性因子和局部特异性因子的异常检测的算法进行比较,在精度影响不大的情况下,前者明显提高了计算速度。(3)使用采样特异性因子和采样频率进行实时异常检测。首先将原始数据集分成正常数据集(Normal Dataset)和异常数据集(Anomalous Dataset)两类;然后在正常数据集中学习最优采样频率,获取采样子集;在实时处理时,仅需计算当前数据的SPF值,使用排名对比方法,判断其是否为异常,从而实现实时异常检测。仿真实验结果表明该算法误检率为2%。
其他文献
医学图像分割是医学图像处理、分析和理解的关键技术,其分割结果为后续的医学图像配准及三维重建提供基础数据集,近年来大量的学者都对医学图像分割的研究与应用给予了高度重视
随着以智能体技术为依托的产品在教育、医疗、娱乐、交通和通信等领域得到越来越广泛的应用,人类对智能体本身的可交互性提出了更高的要求。和谐的人机交互体验对于加速智能
随着移动通信网络的蓬勃发展和飞速建设,网规网优逐渐成为移动通信网中最关键的技术之一,关系着整个移动通信网运营的成败和网络质量,与网络运营商利润的增长有着密切关系。
语音信号处理中,线性预测分析技术广泛应用于综合滤波器、感觉加权滤波器以及对数增益滤波器,并且发挥着极其重要的作用。本文以提高编码算法的合成语音质量为目的对G728算法进
在软件开发的后期进行软件性能检查是通常的工业惯例,但是这种后来进行的改善往往会导致使用比预期使用更多昂贵的硬件设备或使用过多的时间进行设备更换;更有甚者由于软件性
温室环境控制是作物监测的内容之一,对于其品质、产量等具有重要意义。合理控制温室设备,使温室内的环境参数更好的满足作物生长是目前温室环境控制需要解决的重要问题。为了
随着计算机技术的发展,产品设计逐渐从传统的平面设计转向三维立体空间中的实体模型设计。传统的木线加工是靠手工雕刻加工,手工制作精细,随意性大,但是在样式、产量等方面不
自从1903年,美国莱特兄弟驾驶自制飞机试飞成功以来,世界航空业已走过了百余年的历程。与飞机刚诞生时相比,现在的飞机无论是在种类还是性能上都发生了翻天覆地的变化。作为当今
随着社会全面信息化和计算机的普及,软件产业的发展已经成为国民经济发展的重要组成部分。软件的开发方式也逐渐朝着规模化、产业化和工具化的方法转变,而软件风险是项目开发过
随着人类基因组计划的实施和顺利完成,产生出了海量的生物数据,有待于人们利用各种方法、从不同角度对其进行分析和解释,以获得对生命现象更加深入的理解和认识。生物信息学的出