论文部分内容阅读
随着计算机科学和网络技术的高速发展,互联网的开放性和共享性等优点越来越明显,网络信息技术被运用到诸多领域,应用范围遍及世界每个角落的政治、经济、金融、教育和军事等领域。由于计算机及网络的脆弱性、网络协议的缺陷和隐藏的安全漏洞,给网络安全带来极大威胁。网络流量数据和网络日志蕴含着丰富的有价值信息,在用户行为分析、上网行为管理、入侵检测和网络管理等许多领域具有非常高的价值,最初的网络数据处理方式是使用单台计算机对数据进行计算分析,单台处理设备在CPU、I/O与存储方面的性能受到硬件当时硬件发展水平的限制且没有扩展性。面对当今高速发展的高性能硬件设备,导致系统产生数据量和网络中传输的流量呈现几何级数级别增加,传统检测方法无法满足大规模数据分析对时间和效率的要求,在实际应用中对数据分析的处理时间要求越来越高,具备高吞吐和低时延的并行计算成为了数据处理的重要指标,分布式异常检测的研究成为异常检测研究领域的新风向标。针对网络安全形势日趋严峻和海量网络数据快速增长的背景下,本文设计并实现基于云计算的分布式异常网络流量检测的实验,通过云计算对大规模数据的存储和计算能力,解决入侵检测、网络流量分析及日志数据的采集、存储和分析面临的主要瓶颈问题,运用Hadoop的MapReduce分布式并行计算模型,能够高效和可靠地并行处理大规模数据集。本文有关网络异常流量分布式检测的主要研究内容如下:(1)分布式异常检测平台架构研究通过需求分析完成分布式入侵检测平台架构设计,整体架构分为网络采集、分布式存储和异常检测分析三个层次,按照需求完成网络数据采集、数据存储和数据异常检测的实验环境的搭建,通过训练样本训练建立异常检测模型,使用历史特征形成特征异常检测特征库,可以提高异常检测系统的数据处理能力,提高检测效率和检测准确率,可以扩展系统的学习能力挖掘分析更深层次的信息。(2)网络数据采集和网络日志收集研究采用Flume从多源前端服务器中采集日志和告警信息等网络日志数据存储到HDFS分布式文件系统中,使用Sniffer技术采集网络流量并对网络流量进行特征提取,采集端运用WinPcap与LibPcap采集网络数据,实现会话连接重构方式提取网络流量并存储特征值,将KDD99格式特征数据传送到分析处理系统的HDFS文件系统中,对入侵告警信息进行相关性融合分析。(3)数据分析算法研究将模糊C-均值聚类算法、词汇分割分类算法和统计学方法应用到采集的网络流量和网络日志数据,验证算法的可行性和检验分析结果的准确率。通过预处理网络数据和使用基于网络流量相关性的模糊C-均值聚类算法完成聚类分析,提出网络流量相关性四关键要素和基于权值的目标函数计算方法,从训练样本数据获取聚类簇中心值和聚类类型,使用异常方差统计的方法,检测分布式拒绝服务攻击行为,并构建历史特征库满足对未来数据快速分析的需求。(4)基于分布式的网络异常检测研究将机器学习算法和MapReduce分布式计算模型结合在Hadoop平台上进行并行化处理,将存储在HDFS分布式文件系统中网络采集数据、日志和告警信息,采用MapReduce和Flume等分布式计算技术完成分布式异常检测实验、融合告警信息,通过聚类算法和分类算法深入挖掘数据中的异常信息和异常网络流量,对分布式异常检测的时间效率、准确率、漏报率和误报率进行了分析。综上所述,本论文构建的网络异常流量分析实验有效地解决了网络数据的采集、存储与异常分析等问题,融合了Hadoop与数据挖掘各自的优势,充分发挥了Hadoop分布式计算框架的高扩展性和高吞吐性等特性,利用数据挖掘算法深入检测网络事件中的异常信息,形成一整套比较完整且准确度较高的采集、存储、分析和特征建立过程。