论文部分内容阅读
网络测量是获取网络运行参数的技术手段,为网络管理和安全防护提供了重要的数据支持。传统的网络测量方法以网络数据包或网络流为测量对象,通过对它们的识别和分类达到测量的目的。但是,随着加密协议的普及,私有协议的增多,越来越多的网络流量无法通过面向数据包或面向网络流的测量方法进行识别。面向主机的网络测量方法可以利用同一主机活动的规律性和同类主机活动的相似性辅助识别网络流量,从而有效解决网络测量效果下降的问题。面向主机的网络测量研究涉及以下三方面的工作。一是主机属性的提取和表示方法研究,二是基于主机属性的主机行为分类研究,三是主机测量结果的分析方法研究。其中,主机属性的提取和表示方法研究是其余两方面研究工作的基础和前提,是面向主机网络测量的主要研究内容。本文从分析主机产生流量的内容、主机位置等多个角度的对主机属性的提取和表示方法开展了详细研究。本文首先对使用明文协议网络服务主机的属性进行了提取。本文结合已有的研究成果和技术,从主机的流量统计信息、地理位置、连接模式和使用的网络应用类型等方面对主机进行了属性提取。然后,对使用加密服务和未知网络服务主机的属性进行了提取。通过使用机器学习算法对加密流量和未知流量中的长流进行了分类,根据分类结果提取了相关的主机属性。此外,本文以三种典型的数据类型表示所有提取的主机属性,并制定了主机属性转化规则,将主机属性转化为可用于机器学习或其他分析方法的特征向量。基于上述研究,本文设计并实现了一个主机属性提取和聚类分析原型系统。该系统能够将网络流量按主机层次汇聚,提取主机属性,并利用基于密度的聚类算法对主机进行聚类分析。为了解决处理大规模网络流量的性能瓶颈问题,优化了该系统的核心数据结构,提高了系统的并行能力,并采用高性能的内存数据库存储主机属性。性能优化后,该系统的吞吐能力提高了3倍,达到每秒7万数据包的处理能力。