mRMR-XGBoost双层模型的Web用户异常行为分析研究

来源 :辽宁大学 | 被引量 : 0次 | 上传用户:andy1li
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的普及率不断提升,Web服务器的功能越来越完善,每天都会产生大规模的Web用户行为数据,该数据被存储到服务器中。近年来,Web用户的异常行为分析问题是我国网络安全的重要问题之一,也是学术界研究的热点。从大规模数据中分析出Web用户的异常行为,并识别出该用户的异常行为类别不仅是舆情管控的重要目标,也是各种网络平台维护网络环境安全的重要手段。Web用户的异常行为一直影响着Web网页的安全与稳定,因此Web网页管理者需要每天对大量的日志记录进行分析,并不断花费时间和资源来维护Web网页。国内外对于Web用户异常行为的研究主要采用企业的一体化日志分析软件和各种机器学习算法或集成学习算法所搭建的模型。日志分析软件虽然提供了有效的日志采集和分析方案,但依赖其架构或者配置,安装配置比较繁琐。目前各种机器学习算法对日志分析的深度不够,对于特征提取,只提取一部分关键特征,未有效去除无关特征,对于Web用户异常行为的类别也没有进行有效识别。现有的集成学习算法模型也存在特征提取不充分、未有效降低特征维度和关联特征结合度低等问题。为了解决上述问题,论文从提取关键性Web用户异常行为特征的角度出发,来提高Web用户异常行为的分类准确率。从集成学习算法的理念出发,来搭建一个高精度模型。主要内容包括:首先,优化mRMR算法。引入标准归一化互信息函数用于冗余特征的度量,从而提升向量的敏感度。在增量搜索新特征时引入显著度函数,并将关键实例集代替原始实例集。基于特征之间的关联性和冗余性进行特征选择以获取更优的Web用户异常行为特征子集。其次,构建mRMR-XGBoost双层模型。模型第一层基于优化后的mRMR算法对特征集进行特征分类工作,输出Web用户异常行为的高质量特征子集。第二层通过XGBoost算法进行特征组合生成新的CART决策树,并利用XGBoost算法内设的正则化项有效了防止过拟合化现象的发生。树的节点划分选择贪心算法进行处理,生成多棵回归树,第K棵树对第K-1棵树的残差进行拟合,最终生成一棵最优的树。最后,本文在A Realistic Cyber Defense Dataset(CSE-CIC-IDS2018)数据集上提取了sql安全注入攻击、网络目录扫描攻击、XSS注入三个类别的数据,组成Web用户异常行为的实验数据集。首先,本文对mRMR算法优化前后进行实验对比,通过比较特征分类的收敛速度和准确性,证明优化后的mRMR算法在特征处理上效果更优。其次,本文对XGBoost单层模型和mRMR-XGBoost双层模型进行了实验对比,结果表明,mRMR-XGBoost双层模型在Web用户异常行为分析上具有更高的准确度。最后,本文将mRMR-XGBoost双层模型和XGBoostXGBoost双层模型做抗噪实验对比分析,结果表明,mRMR-XGBoost双层模型在Web用户异常行为分析应用中具有更好的抗噪性和稳定性,而且mRMRXGBoost双层模型在Web用户异常行为分析研究中分类速度更快。综上所述,本课题提出的mRMR-XGBoost双层模型在Web用户异常行为应用中性能更优,具有较好的鲁棒性。
其他文献
理想的群集智能算法(Swarm Intelligence,SI)能够快速找到优化问题的一个可行解,其目的是尽快取得全局最优解,而非陷入局部最优。然而现有的群集智能算法往往存在收敛速度慢和易陷入局部最优的问题。羊群算法(Sheep Optimization,SO)是一种模拟羊群行为的新型群集智能算法,它根据群集智能算法的三种策略:全局探索、局部开发和跳出局部优化,分别通过模拟羊群的三类行为:头羊引领
自1960年代以来,基于TCP/IP协议的互联网在现代社会中发挥着越来越重要的作用,TCP/IP网络架构是一个以主机为中心的模型,该模型是根据早期互联网应用模式而开发的,例如提供连接性和共享资源。但是,随着计算机技术和网络应用的飞速发展,网络传输模式也从资源共享转变为内容分发与获取,人们关注的重点从“从何处获取内容”转变为“获取什么内容”。而最初为端到端通信设计的TCP/IP网络难以适应这种变化,
车辆驾驶过程中能否与障碍物发生碰撞直接关系到车辆的安全驾驶。由于采集的图像因外界干扰会出现图像失真,导致障碍物高度及车辆与障碍物间距的判断失误,最终发生车辆与障碍物的碰撞。因此,滤除图像中的混合噪声,更准确的判断安全行驶距离,预防碰撞事故的发生,对于汽车的安全驾驶有着重要的意义。本文针对当前采集图像中存在的缺陷设计并实现了一种基于高斯椒盐图像去噪的障碍物碰撞预警系统,为辅助驾驶人员的安全驾驶提供了
随着深度传感器与深度学习网络的发展,基于骨架数据的人体动作识别成为近年来计算机视觉领域的热门问题之一。通过传感器获得的骨架数据可以表示人体关节动态信息以适应带有噪声的复杂背景。应用图卷积网络描述人体骨架实现人体动作识别可以取得很好的识别效果,但实现过程中仍存在一些问题,如图的拓扑结构固定、会遗漏非物理连接的关节相关性、无法提取局部时空特征等。首先,参考近年来基于骨架数据与图卷积网络的人体动作识别的
现阶段,工业控制系统(Industrial Control Systems,ICSs)已经广泛应用于国家生产和发展的各个关键领域和行业。然而,随着工业化和信息化的高度融合,工业控制系统面临愈来愈多具有时间持续性、手段综合性和目标特定性的定向攻击和高级可持续性攻击(Advanced Persistent Threat,APT),并且传统的IT信息安全技术并不能很好的适用于工业控制系统。因此,基于工业
在大数据时代,数据的增长带动了信息领域的高速发展,各个领域的推荐系统在人们的日常生活中起到了更为明显的作用,能够帮助人们进行信息的筛选,提高了产品的使用体验,帮助了人们获得更好的生活。教育领域同样如此,各种在线学习网站先后流行,但与推荐引擎的结合程度还相对较低,远低于电商和娱乐领域,在数量和质量上,均有明显的进步空间。本文认真研究了相关教育学理论,充分研究了国际国内在线学习领域和个性化推荐领域的现
随着学习资源的爆炸性增长,如何在海量的数据里找到学习资源成为了一个急需解决的问题。个性化知识资源推荐是一种有效的解决办法,其本质是通过推荐算法捕捉到用户的偏好,给用户推荐潜在知识资源。据此本文提出了基于混合推荐算法的个性化知识点推荐系统研究与实现。首先本研究对推荐算法进行了深入的研究分析,将推荐算法分为传统的推荐算法和基于各类智能算法的新型推荐算法。并对这两类推荐算法下的各类具体算法进行分析,明确
互联网的发展使得人们可以通过粘贴复制,径直将网上他人的知识成果放在自己的论文里,无意间形成侵权、学术造假等事件。而学术论文不断反复套用、盗用,严重的影响了整个学术界的氛围,低水准论文满天飞。要想从根本上杜绝类似事件的发生,就要通过增强对论文的重复率度量来监督,当前国内外对文本的查重成为新的研究热点。实行版权保护时,一个高效的方法是对文档之间的相似程度进行度量。文本相似度研究在判定文章原创方面有着普
近年来,随着移动互联网的飞速发展,移动设备被人们广泛使用。卷积神经网络已成为计算机视觉领域的主流技术,为泛在的移动设备提供了多元化服务,而卷积神经网络模型常常具有规模庞大、层次深、复杂度高、对于硬件需求标准过高等问题。为了大规模的卷积神经网络模型能够更高效地应用于移动互联网中的边缘设备,对于轻量化卷积神经网络的研究日益增多。如何让卷积神经网络在尽可能保障模型精度的前提下减少模型参数量、降低网络复杂
随着信息技术的发展,人类已经从4G时代迈入了5G时代,上网速度变快的同时也促进了互联网媒体技术的发展,视频逐渐代替文字成为信息传播的主要载体。在线视频课凭借其不受时间和地点限制的优势,让知识获取变得更方便快捷的特点,越来越受到求学者的青睐。但我们也要注意到,大数据时代下海量信息带来的“信息过载”问题同样也出现在在线学习领域。课程推荐系统可以根据用户的行为历史数据分析用户对课程的兴趣倾向,帮助用户快