论文部分内容阅读
随着科学技术飞速进步,我国计算机网络事业得到极大发展和普及。网络对我们工作、生活和学习的影响无处不在,给我们带来了无比的方便与快捷。然而,计算机网络在给我们带来便利的同时,也引起了各种计算机网络安全问题。在应对这些安全问题时,基于日志数据处理的各种方法与技术成为大家研究的共识。其中,以日志数据为研究对象的数据挖掘方法——聚类算法在日志规模压缩方面是一个很有发挥空间的应用方法。由于传统聚类算法不能直接应用于日志数据领域,本文首先对聚类算法进行了深入的研究。探讨了聚类算法的定义、产生历程以及聚类算法的数据类型,对传统聚类算法的几个分支:划分聚类、层次聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类分别做了概括性描述。总结和分析了聚类算法当前存在的问题和有待改进的方面。针对以上问题,并结合网络日志与系统日志的特点,本文所做的主要工作包括:1.设计并提出了一种基于网格的网络日志二次聚类算法对多协议网络日志数据划分网格,网格内外分别作两次聚类,生成聚类后的簇记录。该算法不需预设类簇个数k,可自主决定类簇个数。该算法处理实际的动态数据,实现增量式聚类,可以删除已聚类数据,处理新来网络日志。实验证明,该算法对日志规模压缩效果显著,而且不破坏网络日志的完整性和可靠性,并且不影响用户的正常网络访问。2.设计并提出了一种基于事件映射的系统日志聚类算法对操作系统日志、安全日志和应用程序日志,设计统一的聚类算法对其做共同处理,产生统一的用户操作行为概化描述。通过考察日志记录与事件之间的映射关系,设计并提出基于事件映射关系的系统日志聚类算法。参考事件关联的思想,通过实验总结,建立起日志记录与事件之间的映射关系。该算法充分利用操作系统日志、安全日志和应用程序日志的先验知识,简化了聚类算法的复杂度,易于实现,速度快,时间复杂度低,聚类生成的事件信息描述准确、完整,易于理解和识别,成为后期安全研究的高质量数据源。