聚类算法及其在日志数据处理中的应用研究

被引量 : 0次 | 上传用户:zhanggh20060363
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术飞速进步,我国计算机网络事业得到极大发展和普及。网络对我们工作、生活和学习的影响无处不在,给我们带来了无比的方便与快捷。然而,计算机网络在给我们带来便利的同时,也引起了各种计算机网络安全问题。在应对这些安全问题时,基于日志数据处理的各种方法与技术成为大家研究的共识。其中,以日志数据为研究对象的数据挖掘方法——聚类算法在日志规模压缩方面是一个很有发挥空间的应用方法。由于传统聚类算法不能直接应用于日志数据领域,本文首先对聚类算法进行了深入的研究。探讨了聚类算法的定义、产生历程以及聚类算法的数据类型,对传统聚类算法的几个分支:划分聚类、层次聚类、基于密度的聚类、基于网格的聚类和基于模型的聚类分别做了概括性描述。总结和分析了聚类算法当前存在的问题和有待改进的方面。针对以上问题,并结合网络日志与系统日志的特点,本文所做的主要工作包括:1.设计并提出了一种基于网格的网络日志二次聚类算法对多协议网络日志数据划分网格,网格内外分别作两次聚类,生成聚类后的簇记录。该算法不需预设类簇个数k,可自主决定类簇个数。该算法处理实际的动态数据,实现增量式聚类,可以删除已聚类数据,处理新来网络日志。实验证明,该算法对日志规模压缩效果显著,而且不破坏网络日志的完整性和可靠性,并且不影响用户的正常网络访问。2.设计并提出了一种基于事件映射的系统日志聚类算法对操作系统日志、安全日志和应用程序日志,设计统一的聚类算法对其做共同处理,产生统一的用户操作行为概化描述。通过考察日志记录与事件之间的映射关系,设计并提出基于事件映射关系的系统日志聚类算法。参考事件关联的思想,通过实验总结,建立起日志记录与事件之间的映射关系。该算法充分利用操作系统日志、安全日志和应用程序日志的先验知识,简化了聚类算法的复杂度,易于实现,速度快,时间复杂度低,聚类生成的事件信息描述准确、完整,易于理解和识别,成为后期安全研究的高质量数据源。
其他文献
“9加几”是学生学习20以内进位加的起始内容。通过这部分内容的教学,一方面可以引导学生初步感受利用已有知识和经验解决新的计算问题的基本过程,体会解决问题方法的多样性,
随着生活水平的不断提高 ,继续仅以客观指标评估生活质量在一定意义上便失去了作用。本文利用 2 0 0 3年四川省城镇居民住户主观生活质量抽样调查的数据为基础进行统计分析 ,
企业金融化是经济金融化研究的一个重要和基础性分支,自20世纪90年代以来逐渐成为学术界研究的热点。本文从国内外关于经济金融化的重要研究文献中,对企业金融化的相关研究进
广电总局地球站是进行电视卫星节目上行传输、发射的基地和枢纽,保证地球站信号转播设备的正常运行非常重要。巡检转播设备运行状态,及时消除安全隐患是保证电视转播系统安全
目的:分析总结桡骨远端骨折诊疗过程中掌倾角测量结果并探讨掌倾角测量应注意的问题。方法:以53例腕部受伤病人诊疗过程中拍摄的腕关节侧位片为对象,以能否分清豌豆骨,舟状骨,头状
与西方国家影子银行不同,中国式影子银行具有明显的体制烙印、缺乏证券化过程、基本处于政府监督或者备案之列、和传统银行功能交错重叠等特征。影子银行发展给中小企业融资
目的:观测坐骨神经损伤对大鼠行为的改变,以及运用免疫组化技术观察大鼠坐骨神经损伤对相应背根神经节中生长相关蛋白表达的影响,探讨生长相关蛋白与坐骨神经损伤所引起的神经源
目的:探讨AP模型中性粒细胞凋亡与Caspase 1、Caspase 8酶活性的关系,阐述Caspase 1、Caspase 8在急性胰腺炎中性粒细胞凋亡中的作用及其在AP发病中的可能机制。方法:SD大鼠90只
目的了解肝移植术后医院感染的发生率及其危险因素,探讨降低医院感染发生率的防治措施。方法采用纵向研究方法,调查中南大学湘雅三医院2002年8月1日至2005年12月30日间所做的54
2013年5月1日《电子招标投标办法》正式颁布实施。《办法》规定,电子招标投标系统应当通过检测和认证,未通过检测和认证的,不得投入运行。电子招标投标系统的检测认证制度建