基于机器学习算法的P2P流量分类研究

来源 :湖南工业大学 | 被引量 : 0次 | 上传用户:khalista9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
P2P应用的快速增长,带来网络拥塞、大量消费网络带宽等诸多问题,而传统的基于端口与有效载荷的网络流量分类方法存在着很多缺陷,研究按照5元组(源IP、源Port、目的IP、目的Prot及IP协议)的定义,将P2P报文分成双向TCP或UDP流,抽取独立于端口、协议和有效载荷的原始数据报文的信息作为P2P流的特征,形成特征向量,用特征向量表示流,流的分类类别为P2P的协议类型。用提出的基于ReliefF-CFS的方法选择流的特征子集,该方法结合ReliefF和基于相关性(CFS)两种特征选择方法,产生适合于分类P2P流的特征子集。首先利用ReliefF特征选择方法把候选特征按与类别相关性的大小排序,通过设定的阈值选择与类别相关性大的特征子集作为CFS选择方法的初始集,然后利用CFS结合正向搜索得到最终的较优特征子集。研究使用C4.5决策树、支持向量机(SVM)、K近邻(KNN)三种机器学习算法构建P2P流量分类器,利用获取的原始数据寻找分类器的最优分类参数,主要采用分类准确率和分类时间标准进行评估;并研究统计原始数据报文的部分信息分类P2P流,实验中分别统计流的双向50、100、150、200个报文信息,结果显示不仅减少了特征统计计算的复杂度和分类的时间,而且有更高的分类准确率。为了让研究的成果能有实际的应用价值,通过构建相应的硬件、软件环境,对P2P流量的在线实时分类作了初步的研究。设计并实现了基于机器学习算法的P2P流量分类原型系统,系统分类分类器构建和分类两个阶段,每个阶段有数据采集、数据解析、流的合成以及分类四个模块。
其他文献