论文部分内容阅读
近些年来,互联网的规模急速增长,数据规模迅速扩大,网络的管理与监测成为越来越重要的任务。对网络流量异常值进行检测,可以为网络管理、安全预警等多种事务提供关键的决策帮助,具有十分重要的意义。目前,关于异常流量检测的研究已经有了较大发展,但还存在着一些局限性。例如,传统统计模型无法适应网络流量自相似性、长相关性等特性;基于分类训练的方法需要大量的标注数据用作训练不太符合实际;基于聚类的检测方法又对聚类结果依赖较大。此外,目前大部分的检测研究更多地集中在异常检测的准确度而较少考虑时间效率,难以快速应对网络中的异常。为了提高流量异常检测的准确性和时间效率,本文提出了一种基于流量预测-密度聚类的综合异常检测方法。首先提出一种基于改进RNN结构的流量预测方法,得到较为准确的流量预测值,随后利用预测结果作为聚类检测的输入之一,以缓解基于聚类的异常检测中面对一维流量值聚类时存在的检测性能较差问题,随后提出基于改进密度聚类的异常检测方法对流量数据进行异常检测。具体来说,针对大多数基于循环神经网络(Recurrent Neural Networks,RNN)的流量预测方法存在的长期依赖问题,进而导致的预测准确度低,以及时间效率较低的问题,本文提出一种基于改进循环神经网络的网络流量预测方法,使得预测模型训练速度提高并具有良好的预测准确度。该方法首先基于时钟循环神经网络(Clockwork RNN,CW-RNN)的基础结构,引入随机权重的思想,并将隐层模块替换为回声状态储备池,简化神经网络结构,提高模型的训练速度。随后进一步对隐层激活规则进行修改,每个储备池在每步训练中均由对应时钟前的记录信息进行激活,使得每次的输出都可以综合所有隐层模块的信息,提高神经网络模型的预测精度。通过仿真实验证明,该方法能提供准确的预测结果,并具有较快的训练速度,是一种时间效率和准确度综合更优的预测方法。然后,针对传统基于密度聚类的异常检测方法对样本的局部特性考虑不足,异常检测准确度不高的问题,本文提出一种改进密度聚类的流量异常检测方法。首先在数据特征选取上,针对一维时序流量值聚类时异常检测效果较差的问题,将基于改进CW-RNN的流量预测结果作为聚类输入样本的一个维度,以增加样本包含的流量时序信息特征,提高异常检测的准确性。随后,在密度峰值聚类算法(Density Peak Clustering,DPC)的基础上引入引力理论,提出势能的新概念替代原有的密度,并引入K近邻的计算方法来缓解原算法中对截断距离过于依赖的问题。最后,为了充分考虑样本的局部特征以提高预测精度,提出势能梯度的概念用于进一步异常值的检测。仿真实验结果表明,该改进方法可有效提高流量异常检测的准确度。