论文部分内容阅读
互联网流量识别是互联网流量测量领域的研究热点问题之一。以P2P流量为主要对象的流量识别、管理已经成为学术界、网络工程界、国家有关部门普遍关心的问题。高效、准确地识别互联网流量对于分析网络发展趋势、提供服务质量保证、动态访问控制、网络合法管理、异常行为检测等都有很重要的现实意义。传统的以知名端口和应用层载荷特征码为基础的流量识别方法难以应对端口伪装、端口随机选择和应用层数据加密等反监测技术趋势。基于应用行为和流特征的方法已经受到研究人员关注,但识别准确率、实时处理能力、自动学习能力和新应用发现能力等都是需要面对的挑战。具有规模适应性的互联网流量识别方法的研究目标是面向不同网络规模、不同宏观程度以及不同识别粒度的分析需求,研究在不同层次和不同范围内对互联网传输的内容进行区分,对互联网应用行为进行分析的有效方法和组织方式。并从智能学习特性、在线实时处理能力、混合分类实施方式以及不同范围内的分布式处理方法等方面提出了新的目标。论文基于此研究面向单点、有限网络规模和互联网范围的流量识别和行为分析方法。针对上述关键性问题展开研究,主要贡献和创新包括以下几点:(1)提出基于数据引力和细分识别空间理论的半监督学习(DGFDRS-SSL)模型,在此基础上研究基于流统计特征的机器学习流量识别方法。把样本空间的数据点视为质量点,定义数据点之间的欧式距离为样本距离,借用万有引力定律提出数据空间中的数据引力(DG)理论,基于数据引力实施样本聚类。提出细分识别空间(FDRS)理论,对分类识别空间进行不同维度和细度的划分,采用染色的方法对划分后的识别空间进行区分,形成一个具有细分特征的识别空间。数据样本聚类后把聚类结果映射到细分识别空间,在染色原则指导下根据有“标记”样本对识别空间染色得到半监督学习分类训练模型。把模型用于面向单点的流统计特征流量识别,克服了传统有导师学习方法需要大量有分类“标记”样本缺点,具有较高的性能和新应用发现的能力。(2)定义了互联网应用群体模型,提出面向有限网络规模的互联网应用群体发现和流量识别方法。分析互联网应用的特性,定义互联网中不同应用行为的主机连接特征图。结合社会群体概念和有限网络范围内的行为主机之间聚集、共享和连接特征,研究基于行为特征图的动态互联网应用群体生成和发现方法。从不同层次和位置收集具有不同方向属性的节点行为信息用于分析有限规模的网络行为。借助宏观的群体特征发现实施微观粒度的流量识别、端口伪装和跨协议传输行为发现。适于有限规模内具有分布式和协同特征的应用行为分析,不受易变易伪装特征的影响。(3)提出了面向互联网规模的自组织流量识别联盟模型。结合DHT(分布式哈希表)的优点,研究利用虚拟存储和相同前缀Hash技术实现索引资源本地存储的方法,设计改进的Chord覆盖网络路由算法,并基于此设计无中心的自组织互联网流量识别和行为分析联盟模型。具有本地流量识别和行为分析功能的节点在遵守联盟协议的条件下可以加入联盟,并在联盟成员之间协助流量识别和行为分析,共享流量特征、数据样本和识别经验。克服了传统方法只能在有限组织机构之间通过固定设备和协议的协助,可扩展性差和开放性不足等缺点。(4)提出并设计了一种获取有分类“标记”的真实网络流量数据样本的方法,结合网络处理器实现了流量样本采集平台。设计客户端,利用静态过滤监测机制,采用Hook方式监视本地应用程序的网络调用。根据发起网络流量的应用程序或进程识别应用,并把对应程序分类信息标签嵌入相应数据包的TOS标志位,实现互联网流量的真实分类“标记”,同时具有流量分类验证功能。在网关出口利用网络处理器的快速硬件匹配能力检测数据包TOS标志位,采集带分类“标记”的流量样本,预处理后发布使用,实用有效。(5)提出了一种基于机器学习的在线流量识别方法,并结合网络处理器实现1000Mbps有限线速处理目标。研究互联网流量的时序相关性特征,获取行为节点之间的前序流量信息后进行分类识别,随后利用得到的前序流的识别结果指导后续流识别和分类,并随时根据获取流特征的变化进行调整和修正。发挥IXP-2400网络处理器的高速并行处理特性和软计算理论的智能特性,实现基于网络处理器和服务器相结合的软、硬件混合的流量识别平台,具备1000Mbps的有限线速处理能力。使基于机器学习的流量识别方法具有一定的在线实时识别能力。