基于机器学习的网络流量识别及其应用研究

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:skyboat521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的不断发展,数据中心网络的规模日益扩大。在数据中心内的一些业务,如数据迁移、文件备份,其产生的流量数目虽然很少,但传输的数据量极大,被称为大象流。为了更好地利用网络资源,减少网络拥塞,需要对大象流作出区分,单独优化。本文利用机器学习,对数据中心网络中的大象流进行识别,然后探讨了路由优化场景下识别模型的评估指标,最后将流量大小的二类识别扩展到了多类识别。主要的研究内容和创新点包括以下几个方面:(1)为了尽可能早地检测出大象流,本文以数据挖掘的角度,从一条流的前几个数据包中提取多个有效特征,使用LightGBM算法对大象流进行快速识别。针对数据集中大象流、老鼠流的样本不均衡问题,本文引入了聚焦损失函数,并在其基础上提出了双相聚焦损失函数(Biphasic Focal Loss,BFL),使模型在训练过程中更多地关注困难样本。本文分别使用了三种真实数据集验证了不同学习算法的有效性,实验结果表明使用了BFL的LightGBM模型不但具有较高的TPR和TNR,而且对大象流判定门限的变化具有更强的鲁棒性。(2)为了提高数据中心网络的性能,常需要对网络路由进行优化。然而,当前的一些基于大象流识别的路由优化系统仅考虑了识别模型对大象流的召回率,而忽视了查准率等其他指标。本文以一种基于SDN的大象流计数路由算法为例,探究识别模型的召回率和查准率对路由优化效果的影响,并提出使用加权F值将召回率和查准率统一到一个度量上,通过调节β系数平衡两者的重要性,从而使最终的路由优化效果最大化。(3)由于数据中心内的流量处于动态的变化之中,单一的划分门限很难确定。此外,将流量的大小仅分为两类太过粗糙简单,不能很好地支持一些更加灵活高效的路由方案。对此,本文对流量大小进行更细粒度地识别,同时提出了两种多分类下的路由算法。一种是多分类随机路由算法,该算法通过对各类流量的随机优化,使更多的流量拥有被优化的机会;另一种是多分类多权重路由算法,该算法为不同类别的流量赋予不同权重,从而更加准确地统计链路负载。通过路由仿真实验,本文证明了多分类路由算法可以进一步减少网络流量的传输时间。
其他文献
蒙古族英雄史诗《江格尔》是以主人公的名字命名的一部作品,《江格尔》史诗由七十多部独立的诗篇组成,全诗长达10多万行。是在北方民族英雄史诗宝库中最为光辉灿烂的一部长篇英雄史诗。史诗《江格尔》最初在新疆卫拉特蒙古人中诞生,后传唱到俄罗斯、蒙古等国家。和布克赛尔与《江格尔》有着密不可分的渊源,和布克赛尔的江格尔奇多;民间遗迹和《江格尔》中提到的地名相似的多;收集的《江格尔》章多;产生、发展、传承的历史长
运用高效液相色谱技术测定小麦(TriticumaestivuraL.)耐盐品种‘德抗961’和盐敏感品种‘豫麦34’盐胁迫后叶片和根DNA中5-甲基胞嘧啶百分含量的变化,结果表明,经150mmol/LNaCl处理
2011年1月26日中国铸造协会在北京组织召开了由工业和信息化部委托的《铸造行业“十二五”发展规划》(以下简称“规划”)项目评审会。评审会邀请了工业和信息化部装备工业司副
人权是人类成员即所有的人都应享有的基本权利,人权的存在形态是由应有权利、法定权利和实有权力构成的互相关联的体系."受教育权"是一种基本的人权,它具有神圣性、不可缺少
目的评价氨茶碱对体外循环(CPB)所致炎性反应的作用.方法选择心脏瓣膜置换术患者20例,随机分为氨茶碱组和对照组,每组10例.氨茶碱组于麻醉诱导后缓慢静脉注射氨茶碱(5mg/kg,5
培养"全面发展"的人是我国多年来的教育目标,然而从这些年的教育实践来看,对"全面发展"的片面理解却广泛存在着.本文旨在以马克思主义经典著作为出发点,结合当前的一些教育现
马协型水稻细胞质雄性不育系是近年培育并广泛应用的一种新型不育系。利用Southern blot、Northern blot和Blue-native PAGE电泳等技术对其线粒体基因组的变异和功能进行研究
徂徕山植物区系是鲁中南植物区系的典型代表之一,具以下特征:植物种类丰富,共有维管植物114科,368属,640种;科、属组成的优势现象明显;区系具有一定的古老性。但特有程度低;单种属和
阅读是学生个体复杂的认知活动,必然受到认知方式的影响.在教学中,教师要在遵循学生认知方式发展规律的基础上开展阅读教学,并采用相宜的教学策略帮助学生进行认知方式的改组
对神农箭竹(Fargesia murielae)N、P、K的含量进行分析,结果表明:N、P、K在竹子植物体内呈非均匀分布。N和P在各器官中的分布规律为:叶>鞭、根>竿;K在未开花竹和正开花竹中分布规律为:鞭>根>叶>竿,在已开花竹中分布规律为:叶>鞭>竿>根。随着开花过程的进行,N的含量在叶、竿、鞭和根等器官中逐渐减少;P的含量在竿、鞭和根等器官中逐渐降低,在叶片中先升高后降低;K的含量在鞭和根中