论文部分内容阅读
随着互联网的飞速发展,网络应用层出不穷。为了更好的了解用户使用的网络应用类别和分析网络提供给用户的服务质量,网络服务供应商(ISP)的管理人员的一项重要任务就是识别和分类流经网络的流量。传统的识别和分类技术,比如基于知名端口号的识别方法,已经不再准确,现在广泛研究和使用的技术是机器学习方法、应用层协议行为特征方法和基于载荷的方法。在所有这些方法中,深度包检测技术(DPI)(基于载荷的一种技术)是目前最常用和最准确的方法。但是这个技术要求ISP的DPI设备必须有一个完整准确的应用层协议特征库。传统的构建这个特征库的过程非常耗费人力物力,并且提取的特征的准确性很大程度上依赖提取人员的经验值。这篇论文在对多种应用层协议,尤其是P2P协议,的载荷进行研究后,提出了应用层协议特征自动提取算法,讨论了该算法的性能和准确性,阐述了特征签名的出现方式、表示方式以及检测算法,并对算法的有效性和准确性进行了验证。本文的主要工作和贡献包括:(1)介绍相关领域的研究现状,综合比较基于端口号、基于IP地址、基于机器学习、基于协议行为特征以及基于载荷的识别方法的优缺点。(2)设计实现了纯净流采集工具,该工具通过抓取网卡数据包,并结合进程名称把流量按照五元组进行分类。(3)定义特征字符串,分析特征字符串的出现规律,这些规律能够帮助我们在设计算法的时候制订一定的规则。(4)从执行效率和准确性方面比较几种常用的字符串提取算法。(5)设计实现应用层协议特征提取算法,该算法能够自动提取协议的特征字串,并通过出现频率来进行一定的提纯操作。(6)验证自动特征提取算法的准确性。通过把得到的特征字符串应用于DPI原型系统中,检测识别的准确率。