基于机器学习的P2P流量识别算法研究

来源 :河南理工大学 | 被引量 : 0次 | 上传用户:chaba
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
P2P技术的快速发展使得P2P流量在网络流量中的比重越来越大,到目前为止,P2P流量成为网络中所占比重最大的流量,这对网络管理造成了巨大的困难,对流量监控技术提出了更高的要求。与此同时,P2P应用为了躲避检测,正在向可以随机选择端口号进行通信和对应用层数据加密的方向发展,因此,造成早期的流量识别技术对P2P流量的识别准确率降低,无法达到预期的要求,目前机器学习的方法逐渐兴起,在流量识别中的应用由于具有不依赖端口号与负载信息的优势,得到了研究界的广泛关注。本文对首先P2P技术进行了分析,包括P2P技术的定义、网络结构、特点以及应用类型,对现阶段的P2P流量识别技术进行了总结,并重点分析研究了在P2P流量识别中的机器学习算法。接下来深入研究了机器学习中的K均值与决策树算法,针对决策树模型在标签样本稀少的情况下识别准确率不高的问题,提出一种基于K均值与决策树的P2P流量识别算法。为提高K均值聚类的准确性,为决策树训练提供准确的标签样本,首先提出一种改进的K均值半监督聚类,通过用标签样本与贪心算法对初始聚类中心进行选定,然后对样本数据聚类,采用最大似然估计对聚类结果和实际网络应用类型进行匹配,提高了K均值算法的聚类性能。然后采用改进的K均值半监督聚类算法对含有大量无标签样本和少量标签样本的训练数据集进行预处理,用得到的含有大量标签样本的新训练集构建决策树分类模型。最后的实验结果表明,在标记样本较少的情况下,新算法对P2P流量的识别能力较好。
其他文献
随着的软交换技术尤其是SIP协议技术和产品的快速发展,SIP协议逐渐走向商业化。用户需要付费才能享受到丰富的网络资源和完善的网络服务。为保护网络资源的合理使用和用户的利
网络控制系统目前广泛应用于控制领域中,它主要是由传感器、控制器、执行器和控制对象通过网络相互连接,具有反馈的闭环分布式控制系统。网络控制系统把网络引入由此具有很多
近年来出现了许多新兴的传输交换技术,比如光路交换(OpticalCircuit Switching, OCS)、光分组交换(Optical Packet Switching, OPS)、光突发交换(Optical Burst Switching, O
我国56%的国有重点煤矿存在煤炭自燃现象,煤炭自燃灾害严重的威胁着矿井安全生产。早期检测出煤自燃的征兆,及时准确做出预报,对提高煤自燃火灾防治工作水平具有重要的意义。
  本文围绕数字水印的应用背景和研究现状,重点研究了当前数字图像水印研究中的一个热点也是难点问题——在使用盲检测方法的水印系统中,如何在满足水印不可见性的前提下提高