基于Spark的内网行为分析技术研究

来源 :苏州大学 | 被引量 : 2次 | 上传用户:anpeila
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
内网信任机制默认机构内部接触网络的相关人员都是安全可信任的。但是,对于一个机构来说,外来人员到访进行工作上的用户操作确是常态,这是造成内网不安全因素之一。内网用户是直接活动于内网中的主要群体,而且用户在其中的行为活动是灵活多变、不好预测的,很多安全事件都是源于内网用户的非法操作,目前对内部用户行为的制约措施还比较匮乏。为了能在大量的用户操作日志中有效鉴别威胁,就需要借助大数据的力量进行网络行为分析,而不仅仅依靠内网信任机制。目前,基于Spark平台与决策树相关的算法只有决策树、随机森林和随机梯度提升决策树。决策树自身具有容易过拟合的特性,不适用于内网防御。而随机森林虽然在实际运行中充分运用了Spark计算的并行能力,但在需要追求模型快速收敛的前提下,其算法复杂度偏高。随机梯度提升决策树有着完备的数学理论支持,但是训练数据集的依赖性导致不能在分布式计算时充分发挥并行性能。本文通过研究与决策树相关的集成方法,并结合了TF-IDF算法思想,提出了特征频率、森林频率,以及伪梯度提升决策树算法,解决了梯度提升决策树随着迭代次数的增加导致错误数据被边缘化的问题。在伪梯度提升决策树中,所有决策树分别在原始数据集有放回采样后的数据集上产生,无需为每次迭代对数据集采样,这使得分布式计算的并行性能得到充分发挥。本文还在分布式集群上对所提方法进行了内网防御的相关实验。通过改变迭代次数和训练数据集规模,在Spark平台上得到一系列RF算法和PBDT算法不同的实验结果,表明在一定规模的训练集上,伪梯度提升决策树具有更好的预测准确度。
其他文献
IP电话是一种通过互联网或其他使用IP技术的网络,来实现新型的电话通讯。很多大型的公司为了方便管理,提高生产力会采取每个工位配置一台的情况。若设备管理员想对其中的一台
随着微波集成电路技术水平的提高,毫米波雷达系统已越来越多的进入人们的日常生活领域——如安全防护、汽车主动安全及智能交通监控等。本文主要针对雷达系统的信号处理方法
随着信息技术的发展,在诸如图像检索、智能导航、视频监控以及其他计算机视觉任务领域,场景识别和分类都有着广泛的应用前景和理论意义,这对快速准确地实现场景图像的分类提
视频业务,在无线传输中占有大多数比例。当前无线视频传输机制存在重传效率低,视频解码不流畅等问题。针对以上问题,本文提出了一种新的信源信道联合优化机制。本方案提出的
面对不断增长的移动互联网业务需求,寻找一种可以为用户提供低成本无线业务的方法成为了当务之急。传统无线接入网受到高额的资本支出与运维开支的限制,已逐渐失去了竞争力,
近年来,通信技术和互联网技术飞速发展,人们对社会化媒体的使用也随之骤增,网络产生的数据越来越多。在这样的环境下,推荐系统作为一种有效解决数据过载问题的技术,得到了广
视觉是人类从大自然中获取信息的最主要的手段。从20世纪60年代起,随着计算机技术的不断提高和普及,图像在人类生活中开始发挥着越来越重要的作用。但由于光学镜头的聚焦范围
在计算机视觉与模式识别等重要领域,运动目标的检测与跟踪技术已经成为现阶段研究的核心课题。在工程实践中都有很多的实际应用,例如:人脸检测、人机交互、智能视频监控等科
随着全球互联网飞速发展,骨干网中IP流量以每两年翻一倍的速度增长,爆炸式增长的流量需求对网络传输性能提出了严峻挑战。光正交频分复用(Optical OrthogonalFrequencyDivisi
规范主义是法学对社会现象的基本研究方法,国际法学亦复如是。本文以规范主义为基本研究方向,对欧盟民航碳税和美国产品碳关税问题分别在国际公法和WTO框架下展开分析。第一