因特网流量类不平衡特性与分类方法的研究

被引量 : 0次 | 上传用户:bw133934
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因特网(Internet)流量分类是实施网络管理、服务质量保障、网络计费以及网络安全等的重要基础。传统的流量分类方法难以适应因特网应用的快速发展,基于机器学习的流量分类方法具有良好的应用前景。但是,这类方法通常以获得高总体分类准确率为优化目标,尚未顾及因特网流量数据所具有的多类不平衡特性,致使分类性能往往偏向大类,而忽略小类。在因特网流量中,某些小类应用多涉及命令流、实时通信流等,其分类性能关乎通信的可靠性或用户体验,有的小类属于重量级应用,其分类性能关乎网络规划或带宽资源分配等。目前,因特网流量的类不平衡特性及分类方法缺乏系统研究。论文针对因特网流量数据集,就选定的特征空间,观察分析网络流样本的类分布特性,分析其特点,从数据重采样、特征选择和分类算法三个方面展开因特网流量分类方法的研究。论文的主要贡献如下:(1)因特网流量数据的类不平衡特性。论文从表象和内在两个方面剖析流量数据存在的类不平衡特性。比较各类别的网络流数目和字节数目,发现流量数据往往包括多个大类和多个小类,大类与小类之间的流数目差距显著,小类可能拥有较大比例的字节数,类内还可能存在大流与小流之间的显著不平衡。观察分析网络流样本在选定特征空间的分布特性,认识到同类流样本往往分布于多个子概念区域,某些子概念仅包含少量的流样本,类间流样本多存在重叠现象。研究类不平衡特性对流量分类性能的影响,发现多子概念特性对流量分类性能的影响比类间流数目不平衡或类间重叠更显著。(2)适合因特网流量多小类特性的代价敏感学习算法。当采用代价敏感学习算法处理流量数据的类不平衡问题,基于流比率的错分代价矩阵不适合因特网流量数据的困难小类(训练的流样本不致最少,但流量难以被正确分类的小类)。论文利用加权方式控制错分代价矩阵,即分析错分代价增长空间与类不平衡程度之间的关系,提出类不平衡程度评估指标和权重计算方法,以适度增加困难小类的错分代价而基本不损失大类的分类性能。(3)因特网流量数据的重采样方法。针对因特网流量数据可能存在的类间流数目不平衡、类间重叠、多子概念和小析取项等问题,提出分层式数据重采样方法PSC(partition, sampling and combining),首先将原始流量数据集划分为多个不相交且密集的子集,以减少类内子概念数;针对每个子集中的小类流样本特征值,以随机插值法扩充小类流样本,进而处理小析取项;并在每个子集上,移除大类与小类重叠区域的大类流样本,进而缓解类间重叠。PSC方法为子分类器训练建立类内散度、类间重叠程度和类不平衡程度均较低的训练子集。(4)因特网流量统计特征的选择算法。针对因特网流量数据可能存在类内多子概念、类间重叠和多小类,提出平衡式特征选择算法BFS (balanced feature selection)。为选择出使得单类流样本具有较低离散度的特征,提出局部相关性指标,用于评估单特征在单类流样本上的确定性程度。为选择出使得类间流样本具有较低重叠程度的特征,采用全局相关性指标评估特征对类别变量的确定性程度。基于每个特征的局部与全局相关性,为每个类别选择局部相关且全局区分性较强的特征,以保证选出的特征子集有利于区分多个小类。(5)因特网重型流分类方法。在因特网流量中,类内的大流与小流不平衡可能使分类器忽略大流的学习;类间流数目不平衡可能使分类器忽略拥有高字节数的小类的分类性能。两种情况均可能导致重型流分类困难,得到低字节分类性能。针对大流与小流不平衡,提出基于信息增益率的流尺度模块化方法(flow size modularization based oninformation gain ratio,FSMGR)。FSMGR以最小化大流集合的数据复杂度为目标搜索大流与小流的划分阈值,将原始流量数据集划分为大流和小流子集,并分别用于分类器训练,从而强化了大流的学习。针对类间流数目不平衡,改进(3)中提出的PSC重采样方法,在保留重型流的情况下缓解小类与大类之间的不平衡,并结合Boosting集成学习算法提高分类器的稳定性。
其他文献
随着移动通信与信息技术的快速发展,无线通信领域产生了各种无线接入技术以满足人们的生活工作需要。不同的无线网络在接入技术、终端、业务等方面都具有异构性,这样对异构融
本研究针对内脏团珍珠囊包被不完全和珍珠形成慢、生长周期长的问题,采用组织块贴片培养包裹珠核后插入内脏团培养珍珠,取得了比较好的育珠效果,插核培育出来的珍珠光泽较好,
目的对鼠源大肠癌细胞肝转移动物模型的建立方法进行改良,为研究大肠癌肝转移机制及生物学行为提供稳定平台。方法选取鼠大肠癌细胞株CT26经皮下传3代后制成细胞悬液与CT26细
<正> 今天,是“清明节”。一大早,我和爸爸坐公交车, 去“抗日山”祭扫烈士陵园。“抗日山”因掩埋抗日战争时八路军、新四军烈士的忠骨而得名。我们来到了“抗日山”,哇!人
期刊
目的:探讨牙干髓治疗及根管塑化治疗的疗效比较。方法:将患牙经髓治疗后分两组,一组做干髓治疗,一组做塑化治疗。结果:塑化治疗后的患牙复发率低。结论:患牙髓病及根尖周病的
目的:采用大孔树脂分离技术将紫花苜蓿中苜蓿皂甙分离出来,用于制造降血脂、抗动脉硬化等功能性保健药品。方法:利用多年生草本植物-紫花苜蓿作原料,按原料∶溶剂=1∶8的比例
企业文化事关企业的生存与发展,具有至关重要的作用。如今,知识经济大潮席卷全球,人们逐渐意识到企业文化这种全新的管理方式的重要性,这已经引起决策者和管理者们的高度重视
英语教学改革是新课程改革的重要组成部分,因此要充分重视英语课程作为基础性课程的作用和地位,明确新形势下英语教学改革的主要方向,全面分析新形势下英语教学改革存在的问
二四行20cm—40cm—20cm的小麦种植模式是山东农业大学研究的一种高产栽培技术,因没有与之配套的播种机而严重影响了该技术的推广应用。因此,研究设计一种适应二四行小麦种植模
在我国,深泥脚水田占有绝大部分比例,而深泥脚水田的插秧技术还处于人工插秧的阶段,主要问题在于深泥脚水田的泥脚深度太大,插秧机下地不能行走,很容易出现打滑和陷机的现象,致使插