论文部分内容阅读
随着网络技术、信息技术的发展,各个领域的信息量急剧增加,数据挖掘处理的数据规模越来越大,同时对数据实时处理需求不断增加。特异性数据挖掘是数据挖掘和知识发现的重要组成部分,特异性数据中往往蕴含着重要信息,包括噪音、故障、入侵等,随着人们对欺诈检测、网络入侵、故障诊断等问题的关注,实时异常检测日益受到重视。异常检测技术有基于统计、聚类、距离、密度等方法,在精度和速度要求都比较高的场合下,这些方法均有一定的局限性。基于此,本文使用采样特异性因子(Sample peculiarity factor, SPF)将基于距离和密度的方法融合起来,并充分考虑数据分布的特点,进行异常检测。实验结果表明基于采样特异性因子SPF的异常检测算法在精度影响不大的情况下,节约了计算时间,提高了计算速度,适合用于实时异常检测。论文的主要工作:(1)从数理统计的角度,分析采样方法的异常检测算法,并为其提供精度保证。将采样算法与传统的基于距离K—NN算法相结合,通过分析采样算法返回的离群点的期望和方差进行质量度量,并构造距离数据库D’近似计算总体的情况,即用样本方差估计总体方差,从而给基于采样特异性因子的异常检测提供了理论基础。(2)提出了学习最优采样频率算法。论文通过选择一定的采样方法,在数据集中折半学习采样频率,在给定置信度的前提下得到采样频率的置信区间,即最优采样频率范围。这样就可以根据采样频率,获取采样子集,进行异常检测。实验表明,当采样频率在[1/32,1/16]之间时,将基于采样特异性因子的异常检测算法与基于特异性因子和局部特异性因子的异常检测的算法进行比较,在精度影响不大的情况下,前者明显提高了计算速度。(3)使用采样特异性因子和采样频率进行实时异常检测。首先将原始数据集分成正常数据集(Normal Dataset)和异常数据集(Anomalous Dataset)两类;然后在正常数据集中学习最优采样频率,获取采样子集;在实时处理时,仅需计算当前数据的SPF值,使用排名对比方法,判断其是否为异常,从而实现实时异常检测。仿真实验结果表明该算法误检率为2%。