基于机器学习的P2P流量识别

被引量 : 11次 | 上传用户:atmywb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来飞速发展的P2P业务在推动INTERNET发展的同时也带来了许多问题。(1)带宽问题:P2P业务不断增加,造成了网络带宽的巨大消耗,甚至引起网络拥塞,使网络性能降低,服务质量下降;(2)版权问题:在网络时代,数字内容很容易被复制与传输,尤其P2P共享软件的繁荣加速了盗版媒体的分发,增加了知识产权保护的难度;(3)网络安全问题:P2P网络中每个节点都是独立的,系统对于节点的约束就变的很小。在没有控制中心的系统中,没有人知道其他结点共享的是什么,这就为病毒和不良消息的传播提供了条件。随着INTERNET重要性的日益提高和网络结构的日益复杂,网络的安全性,可管理性及传统应用的可用性受到了挑战,人们明显越来越意识到有必要对P2P流量和网络行为深入了解,分析,为监控与管理P2P提供技术支持,因此,实现P2P流量的有效识别已经成为急需解决的问题,如何进一步有效的识别出P2P业务成为课题研究的热点。论文课题来源于国家自然科学基金(No.60672025)资助项目的研究任务之一,在课题研究过程中,作者做了以下工作:1.文章从P2P流量识别的工作原理入手,总结了现有P2P流量识别技术,包括基于端口识别,基于应用层签名的识别,基于传输层特征的识别三大类,分析他们的利弊,提出将数据挖掘技术应用在P2P的流量识别,并且将P2P流量识别概念深入到具体单个P2P业务识别。2.根据P2P网络的网络节点对等基本特点,结合机器学习中聚类与分类的算法,选取上行流量与下行流量的比值作为最主要的特征值,通过采集大量的数据建立训练集和测试集,设计出能够实时识别P2P业务的模块和系统,整个系统包括学习和识别两个阶段。3.编码实现系统,通过测试系统识别P2P业务的准确率和CPU占有率证明了该方法具有较高的准确度和较低的复杂度。论文共分为六章。第一章介绍了P2P的概念,数据挖掘技术的发展以及P2P的现状并且提出了课题研究的方向。第二章介绍了P2P与C/S模式的关系以及由此引出的P2P业务识别的相关原理和方法,分析了P2P业务识别技术的发展趋势。第三章阐述了数据挖掘和机器学习的原理以及步骤。第四章介绍了如何利用机器学习的方法进行P2P业务的识别,并对流量数据进行了提取和分析,给出了具体的步骤建立了相关模型。第五章实现了P2P业务识别系统软件的看法并进行了测试,描述了测试条件和环境,得出了基于机器学习方法识别P2P业务的准确率和CPU占有率。第六章对全文进行总结,对今后的工作做出了展望。
其他文献
中华自然科学社的前身是华西自然科学社, 1927年9月在南京中央大学成立,以“研究及发展自然科学”为宗旨,次年更名为中华自然科学社。成立伊始,它积极谋求中国科学事业的发展
根据美国的贸易立法,美国将我国认定为非市场经济国家,在对华的反倾销调查中采用“替代国”的方法计算我国出口产品的倾销幅度。但是美国成文法对美国反补贴法是否适用于非市
随着人们生活水平的提高,汽车越来越多的走入千家万户。为解决越来越严重的城市交通拥挤问题,智能交通系统应运而生。车牌识别作为智能交通的重要组成部分,近些年来一直在不
ICU患者因治疗需要早期建立人工气道,保证气道的通畅是抢救和复苏成功的重要环节,为了争分夺秒赢得抢救的黄金时机,气管插管则是实现这一保证的重要措施。直接喉镜经口插管操作
当前,我国将发展高科技产业作为提升国家竞争力,促进产业转型的重要国家战略。上海高科技园区的兴起,吸引了一大批有着海外留学或工作经历的知识员工回国工作。这部分人群归
混凝土的碳化是混凝土中钢筋锈蚀的主要因素。在我国西部盐湖地区,混凝土中的钢筋通常在几年时间内就发生很严重的锈蚀,严重影响结构的安全性和耐久性,造成了极大的资源浪费
丝素蛋白和壳聚糖均为天然生物材料,原料易得,生物相容性好。但丝素蛋白支架成型困难,抗凝血性较差;壳聚糖支架则降解较快,在水溶液里难以稳定存在。本研究将丝素蛋白与壳聚
从20世纪90年代开始,民族旅游在我国开始成为除山水风光旅游、文物古迹旅游之外的又一大特色旅游产品。随着民族旅游产业的不断完善、发展,人们对民族旅游的理解也越来越深入
百合(BulbusLily)为百合科植物卷丹(L. lanafoliumThunb)、磨香百合(L.long orumThunb)、细叶百合(L.pumilumDo.)等的干燥肉质鳞叶。百合既是珍贵蔬菜,又是著名的观赏球根类
本文首先通过预应力连续梁和等效普通钢筋混凝土连续梁的对比试验,从试验上对预应力钢筋两阶段工作原理进行验证。其次,通过采用有限元分析程序OpenSees对试验连续梁进行数值