论文部分内容阅读
随着P2P技术的发展,P2P流量已经占据了整个互联网流量的60~90%,逐渐成为其重要组成部分。P2P应用的不断增加,其抢占带宽的特点造成了网络带宽的巨大消耗,甚至引起网络拥塞,对其他应用的服务质量造成了威胁,损害了ISP的利益。另一方面,P2P环境下文件共享的方便和选路机制的快速,为网络病毒和不健康信息等也提供了更好的入侵机会。因此,实现P2P流量的准确识别对于有效管理网络和合理利用网络资源都具有重要意义。本文首先对P2P技术进行了介绍。分别对P2P的定义、特点、工作原理以及主要应用进行了分析。接着,阐述了P2P给网络管理带来的问题,以及目前国内外P2P流量充斥着网络的现状,明确了P2P流量识别的重要性。本文对P2P流量识别方法进行了综述。就目前国内外研究现状而言,主要可分为基于人工经验和基于机器学习的P2P流量识别方法。目前,基于人工经验的P2P流量识别方法主要可分为三类:第一类基于端口的识别方法,由于P2P技术采用端口跳跃、随机端口等方式来逃避检测,该方法对于大部分P2P应用已不再有效;第二类基于应用层数据的识别方法,通过提取应用层数据,分析其载荷所包含的协议特征值,来判断网络流量是否属于P2P,该方法准确性高,但可扩展性差且缺乏加密数据识别功能,同时也无法识别新出现的和未知的P2P应用;第三类基于流量特征的识别方法,该方法通过对传输层数据包进行分析并结合P2P网络所表现出来的流量特征,来识别P2P流量。近年来,利用机器学习方法处理P2P流量识别问题已成为该领域的一个新兴研究方向,基于机器学习的P2P流量识别方法主要从支持向量机、决策树和神经网络等方面进行阐述。本文通过结合逻辑网络下的P2P流量所表现出的两种流量特征,即节点双重角色性和平均包到达时间间隔比集中在一定范围内的特点来识别P2P流量,通过结合这两种流量特征有效地提高了P2P流量的识别准确度,识别的假阳性也同样受到控制。此外,本文通过结合决策树方法和P2P流量特征来完成P2P流量的分类问题。实验结果表明,基于决策树模型的P2P流量分类方法能有效避免P2P网络流分布变化所带来的不稳定性,与SVM(Support Vector Machine,支持向量机)、NBK(Na?ve Bayes using Kernel density estimation,改进的朴素贝叶斯方法)方法相比,其平均分类准确率能有效提高。最后,本文对P2P流量识别系统进行研究。P2P流量识别系统使用基于传输层流量特征的识别方法来识别P2P流量数据,然后通过策略的控制,有效地限制和阻断P2P流量数据,保障网络和业务的安全性。对P2P流量进行有效地识别和控制,不仅有利于合理管理网络、合理利用互联网基础设施,有利于制止非法内容在P2P网络中的传播,也有助于维护中国互联网的健康环境和营造一个和谐的网络社会。