论文部分内容阅读
近年来飞速发展的P2P业务在推动INTERNET发展的同时也带来了许多问题。(1)带宽问题:P2P业务不断增加,造成了网络带宽的巨大消耗,甚至引起网络拥塞,使网络性能降低,服务质量下降;(2)版权问题:在网络时代,数字内容很容易被复制与传输,尤其P2P共享软件的繁荣加速了盗版媒体的分发,增加了知识产权保护的难度;(3)网络安全问题:P2P网络中每个节点都是独立的,系统对于节点的约束就变的很小。在没有控制中心的系统中,没有人知道其他结点共享的是什么,这就为病毒和不良消息的传播提供了条件。随着INTERNET重要性的日益提高和网络结构的日益复杂,网络的安全性,可管理性及传统应用的可用性受到了挑战,人们明显越来越意识到有必要对P2P流量和网络行为深入了解,分析,为监控与管理P2P提供技术支持,因此,实现P2P流量的有效识别已经成为急需解决的问题,如何进一步有效的识别出P2P业务成为课题研究的热点。论文课题来源于国家自然科学基金(No.60672025)资助项目的研究任务之一,在课题研究过程中,作者做了以下工作:1.文章从P2P流量识别的工作原理入手,总结了现有P2P流量识别技术,包括基于端口识别,基于应用层签名的识别,基于传输层特征的识别三大类,分析他们的利弊,提出将数据挖掘技术应用在P2P的流量识别,并且将P2P流量识别概念深入到具体单个P2P业务识别。2.根据P2P网络的网络节点对等基本特点,结合机器学习中聚类与分类的算法,选取上行流量与下行流量的比值作为最主要的特征值,通过采集大量的数据建立训练集和测试集,设计出能够实时识别P2P业务的模块和系统,整个系统包括学习和识别两个阶段。3.编码实现系统,通过测试系统识别P2P业务的准确率和CPU占有率证明了该方法具有较高的准确度和较低的复杂度。论文共分为六章。第一章介绍了P2P的概念,数据挖掘技术的发展以及P2P的现状并且提出了课题研究的方向。第二章介绍了P2P与C/S模式的关系以及由此引出的P2P业务识别的相关原理和方法,分析了P2P业务识别技术的发展趋势。第三章阐述了数据挖掘和机器学习的原理以及步骤。第四章介绍了如何利用机器学习的方法进行P2P业务的识别,并对流量数据进行了提取和分析,给出了具体的步骤建立了相关模型。第五章实现了P2P业务识别系统软件的看法并进行了测试,描述了测试条件和环境,得出了基于机器学习方法识别P2P业务的准确率和CPU占有率。第六章对全文进行总结,对今后的工作做出了展望。