基于无监督学习的网络异常流量检测研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户:changsj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的极速发展,给每个人的日常生活都带来了越来越多的便捷。然而越来越多伴随而来的信息安全问题暴露在人们的视野内。面对日益严峻的互联网安全局势,国家也出台了相关的法规政策来促进信息安全产业的稳定发展。然而,作为信息安全第一道防线的网络流量异常检测领域依然面临首当其冲的威胁。随着近几年机器学习的迅速发展,许多研究人员使用机器学习算法来解决异常检测领域的难题,并且取得了许多实验成果。然而在真实的网络环境里,流量数据一般较为原始,同时量级巨大;想要对流量数据进行准确的标记是十分困难的。这些问题对于传统的机器学习算法是巨大的考验。聚类算法是无监督学习中的代表,可以直接从未打标签的数据中,发掘出数据间一些隐藏的结构规律,从而建立检测模型。基于这样的背景下,本文主要尝试使用机器学习中无监督学习算法来对网络异常流量检测问题进行研究。特征选择是数据预处理中的较为重要的一步。为此,本文提出了一种无监督的特征选择算法。通过计算每个特征间的最大信息系数来得到特征对于类别信息的重要度,之后根据特征间的相近程度进行特征聚类。实验结果表明,在对准确率影响不大的前提下,该算法选出的特征子集比原特征集在运行时间上有明显优势,并且降低了多维特征的复杂度。在类别标签难以获取的背景下,聚类算法更适合用来建立异常检测模型。实验发现基于密度的密度峰值聚类算法比其他经典的聚类算法的聚类效果要好一些。然而原始的密度峰值聚类算法存在调参不便和无法应用在大规模数据中的缺点。本文根据这些缺点提出了两点针对性的改进方法。第一点,提出了一种更为简洁的参数,以方便调参工作;同时尝试使用基于高斯概率密度的异常点检测算法来自动选择参数,在一定程度上降低调参的难度。第二点,针对大规模数据的问题,提出了一种抽样方法,并且在实际的数据集上验证了抽样方法的有效性。
其他文献
以万寿菊干花颗粒为原料,对万寿菊花中反式叶黄素进行同时提取皂化工艺研究。考察不同有机溶剂和用量、KOH-乙醇溶液质量浓度和用量、提取皂化温度和时间等因素对反式叶黄素
本文对1例抗生素致凝血功能障碍进行分析,使用头孢哌酮及其复合制剂时应注意密切监测患者PT、APTT等凝血指标,可考虑预防性运用维生素K1及口服肠道菌群调节剂,以预防肠道菌群
《史通》对比较方法的运用已经为人所熟知,而另一部史学理论经典著作《文史通义》中的比较思想却很少受到关注。事实上,《文史通义》不仅对比较方法有着普遍的运用,而且其比较思
随着基督教在中国的传播,中国儒家文化和西方文化之间产生了剧烈的冲突,继而引发了上帝的译名之争。本文从文化翻译观的角度考察明末清初God三个典型性译名:"天主"、"上帝"及
<正>在西方教师眼里,评价一个学生是否优秀的标准是"有自己的见解,喜欢独立思考问题,能得出自己的结论,而且有勇气提出与教师不同的观点。"我在法国教授中文已有二十多年的光
本文在全面分析高职院校毕业生面临的就业新形势和毕业生就业心理危机的基础上,从社会、学校、父母及毕业生自身四个方面提出了加强高职院校毕业生就业危机干预的策略.
2006年3月,财政部、国家税务总局联合下发通知,自2006年4月1日起,对实木地板、实木复合地板及实木指接地板加征5%的消费税,该税率实施9年来,对我国保护濒危树种,促进生态良性
与现代医学相比较,中医学的最大特点在于其"从临床中来,到临床中去"的发展模式[1]。"从临床中来"阶段的临床评价,如何在真实世界中开展临床研究,需要构建相关的理论、方法与技术
目的探讨耳鼻喉科全身麻醉手术病人予以术前心理护理干预的价值。方法选取我院2016年3月~2018年3月接受耳鼻喉手术的42例患者,随机分组分对照组(21例,常规护理)和观察组(21例
以远东芨芨草幼苗(Achnatherum extremiorientale)为试验材料,在模拟渗透胁迫处理(PEG-6000)下施加外源纳米硅肥(含环氧基的硅烷偶联剂,即Si-60),通过对其表型和生理指标进行