论文部分内容阅读
在机器学习中,经常存在一些与正常数据或现有的一般规律不符合的数据,这些对象就是异常数据,但在实际应用中,这些数据经常被人们忽视。实际情况是,这些数据可能具有特殊含义,在异常检测领域,由于它们比正常数据包含更多的有用知识,它们是研究的重点,通过发现其中的规律可以迅速地对异常情况作出准确的判断和处理。在大多数系统中,传感器接收到的数据都是快速、实时、无限的。传感器数据是以数据流的形式传输到数据处理中心的,这给传统的异常检测技术带来了挑战。同时,在数据流中,行为模式随时间的改变可能会发生变化,即出现了模式的正常变化,也就是概念漂移。如何能够适应概念漂移也是异常检测领域的研究重点之一。本文采用数据挖掘和基于统计的方法来对整个传感器数据进行建模,从中识别出异常数据,包括对单个数据点进行检测的点异常和连续一段时间出现的模式异常。为用户提供一种有效的进行数据流异常检测的方式,以解决发生了概念漂移的数据流中异常数据的诊断问题。对于异常点的检测,使用数据挖掘中的递归神经网络技术,提出了使用递归神经网络(Recurrent Neural Network,RNN)进行异常点检测的方法,RNN模型能够有效地对传感器采集到的无明显规律的时间序列数据进行拟合,由于模型本身的时序性,该模型比多项式拟合和基于BP(Back Propagation)神经网络的拟合模型有更好的拟合效果。对于从大量数据中去掉离群点或噪声点有很重要的作用。对于异常模式的检测,由于需要考虑到概念漂移的情况,即模式的正常变化。本文提出了一种全新的思路和方法,将马尔科夫过程的思想应用于异常模式的检测,提出了模式转移的概念。在此基础上提出了基于Kmeans-马尔科夫模型的异常模式检测方法。能够较准确地适应概念漂移的情况。然后尝试将该方法应用于模拟数据和本文相关项目的流数据中,并与现有的基于SAX(Symbolic Aggregate Appro Ximation)的异常检测方法进行了对比,本文提出的异常模式检测方法能够较准确检测出流数据中的异常模式。