论文部分内容阅读
随着互联网的发展、带宽的增长,网络本身和网络攻击手段都在不断演变,异常检测相关算法和系统在精度、时效性、效率等方面都面临挑战。目前大数据处理平台的网络异常流量检测方案大多以Hadoop数据处理平台为载体,考虑在集群上部署Hadoop数据处理平台,使用各种机器学习算法对采集到的流量数据进行大规模的离线计算,并没有考虑异常流量检测的实时性,难以满足实时检测反馈异常流量的要求;同时相关检测算法存在优化升级空间,可以进一步优化以适应大数据的分布式处理方式;除此以外,一种机器学习算法生成的检测模型存在有效性的问题,并不能一直适应持续不断变化的网络环境。针对上述问题,本文做了以下工作:(1)提出了一种基于单点密度和距离的初始聚类中心选择算法。分析了现有的基于无监督聚类算法K-均值算法的核心思想和算法流程,针对算法对初始聚类中心敏感的问题,提出了一种基于单点密度和距离的初始聚类中心选择算法,减少K-均值算法迭代次数,防止其陷入局部最优,并提高检测率。(2)提出了一种自适应更新检测模型的方法。使模型不再有时限性,能随网络流量特征变化而变化,能适应不断变化的网络环境。(3)设计并实现了基于Spark的网络流量异常检测系统。将网络流量异常检测系统在流式计算平台Spark进行设计和实现,系统分为预处理模块、检测模型生成模块、异常流量识别模块和模型更新模块等。将改进的异常流量检测算法应用在检测模型生成中,将自适应更新检测模型的方法应用在模型更新模块中,使异常检测系统可以进行在线的实时检测,效率提高。最后对系统的效率、准确性进行了实验分析。