基于移动群智感知的大规模网络异常检测

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:moshi122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着智能手机功能的日臻完善,移动互联网开始大规模兴起,相应的,各种OTT(Over The Top)业务也层出不穷。OTT业务指代互联网公司基于运营商的通信传输能力,向互联网用户提供各种数据传输服务如文字聊天,视频通话等,典型的例子如微信,Skype。然而由于OTT业务往往面向全球互联网提供服务,因此需要众多针对互联网相关服务的提供者(Internet Service Provider,ISP)合作给予支持,导致底层网络故障繁多,最终引发服务质量(Quality of Service,QoS)滑坡。传统的网络运维管理办法已难以为继,因此急需设计针对大规模网络的高效网络异常检测机制。本文针对OTT业务对网络运维所提出的种种挑战,在群智感知收集网络测量数据的场景下,设计了一种基于决策树建模的网络高延迟异常检测方法。我们首先原数据集进行特征工程,再利用实例聚类将相同特征的样本进行合并。随后将预处理后的数据集输入决策树进行建模,再根据决策树的拓扑结构和节点信息挖掘出潜在的高延迟网络异常。本文贡献分为如下三点:(1)本文提出了一种基于决策树拓扑信息和节点信息提取高延迟网络异常的数据挖掘算法。当前关于决策树的研究大多数是将其作为预测模型使用,在本工作中,决策树被作为分析模型并从中挖掘出异常信息。实验表明,我们的算法可以有效地从群智感知网络测量数据中挖掘出可靠的高延迟网络异常。(2)本文设计了“置信度”标准,用于客观的评价异常的影响严重程度。置信度的设计选择三个因素来量化异常严重程度:标准差、权重和与纯度增益。此外,我们通过数学分析验证了这些因素之间可以达成适当的平衡,从而表明置信度的设计具有客观性。(3)结合集成学习的思想,本文在单决策树数据挖掘算法的基础上提出了基于随机森林的异常检测算法。在原数据集的基础上利用自助采样法生成多个随机样本子空间从而作为每棵子树的输入。然后将树群中每棵子树的异常检测结果通过投票机制进行合并得到最终输出。本工作在含有五百万条样本的群智感知网络测量数据集的基础上进行了大量实验。数据集包含6226种应用程序和5000多个用户的网络环路延迟(Round Trip Time,RTT)。实验显示,本文提出的方法能够有效地检测出高延迟网络异常。除此之外,相较于单决策树的方法,基于随机森林的方法可以取得约25%的泛化性能的提高。
其他文献
采用试验研究与理论分析相结合的方法,在普通混凝土中分别掺入不同量的纳米二氧化硅(Nano-SiO2)和纳米碳酸钙(Nano-CaCO3),制备出新型纳米混凝土.通过微观电镜试验分析了不同纳米
文章结合实践,以榆次区为例简单介绍了农业执法工作的现状,分析了农业综合执法在管理现代农业公共事务中的地位和作用,提出了加快农业执法步伐的几点建议。 Combining with
多次波是海上地震资料最为主要的干扰波类型,它的存在严重降低了海上地震数据的处理质量,影响了后续地震资料解释和储层预测的精度。尽管目前有多种去除多次波的方法,但多次
水凝胶是一类软材料,由三维聚合物网络和大量水构成。由于具有与生物组织的相似性、典型的响应性和溶胀性等一系列的特殊性质,水凝胶在药物传递系统、组织工程、电子传感和效
科技孵化器信息化服务平台的建设是孵化器建设的重要指标之一。为减少入孵企业在信息化基础建设和软件应用方面的投资,适合建设基于SaaS的孵化器信息化服务平台。本文根据云
钢渣是钢铁厂炼钢过程中产生的废渣,其主要化学组分和矿物相与硅酸盐水泥熟料类似,具有潜在的胶凝性能,被称为劣质的水泥熟料。但早期活性低、安定性差等因素限制其进一步开发利用。我国较发达国家对冶金渣的资源化利用技术起步晚、发展慢,其中对于钢渣的利用问题尤为突出。由于对钢渣性质研究不足、资源化利用途径较少等问题,现综合利用率不足25%,大量钢渣堆积,造成巨大的资源浪费及严峻的环境压力。本论文主要研究了钢渣