基于聚类分析的网络流量分类研究

来源 :湖南工业大学 | 被引量 : 0次 | 上传用户:lmnlmnbalance
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,新的应用类型(如FTP、DNS、P2P等)不断涌现,特别是一些采用非标准端口和协议加密形式进行通信的应用的出现,使得传统的基于端口和基于有效载荷的网络流量分类方法效率降低。这激发国内外很多研究者以应用类型作为类别,以网络中通信时所产生的流的统计特性作为特征,运用机器学习来进行网络流量分类研究。这篇论文也是采用机器学习方法研究网络流量分类以及相关技术。包括网络流量数据采集、特征产生、样本标识、特征选择,以及应用机器学习方法对网络流进行分类等技术。在基于机器学习方法的网络流量分类中,网络流量样本,包括训练样本、测试样本的获取是非常重要的一步。文章首先通过校园网络的中心交换机端口映射方法捕获网络报文,然后将采集到的报文按五元组(源IP地址、源端口号、目的IP地址、目的端口号、协议)解析为流,并统计报文大小、个数、时间、标志位等特征,形成了代表网络流的特征向量。最后结合基于端口、基于有效载荷和协议等多种方法,实现样本的自动标识,形成流样本,采用该方法进行标注正确率高。在特征选择方面,文章使用基于主成分分析(Principal Component Analysis,简称PCA)和基于信息增益等两种特征选择方法对两个数据集的候选特征集进行了特征优选,并得到了各自的最优特征子集。实验结果表明提出的方法可以减少特征的数量以便减少学习和分类的时间,同时还可以去掉不相关或冗余特征,提高分类的准确性。最后,文章应用DBSCAN(Density Based Spatial Clustering of Application with Noise)和K-Means两种聚类算法对经过特征选择的网络流进行聚类分析,根据聚类结果产生基于聚类分析的网络流量分类规则,并构建基于聚类分析的网络流量分类器。用实验结果验证了所提出和使用的方法对网络流量分类的有效性和可行性,达到了较高的查准率和总准确度;而且实现简单,算法效率高,是很好的网络流量分类研究方法,具有很强的研究意义和实用价值。
其他文献
该文针对网络规划设计中的问题,系统地论述了网络容量的扩充、对称的运输问题及其逆问题等组合优化问题,分析了这方面研究的背景及其应用前景,归纳总结了已有的研究成果.在此
通过分布式计算手段,建立一种适合企业环境的分布模式,对现有的系统进行整合,简化系统结构,提出系统性能,是该文的主要目的.分布式计算是一个广义的概念,该文对分布式计算在
由于目前市场的大量中间代理业务需求和使用的中间代理软件的繁多,统一中间业务是中间业务进一步发展的要求。通用中间业务平台ezBanker抽取共性数据,封装代理业务规则,把代理软
该文主要是对分布式人工智能的重要分支—多智能体系中有关智能体的自治性问题和智能体这间的协同工作问题进行理论上的研究讨论.文中通过对智能体的结构、特性及以多智能体
网络通讯技术的飞速发展带来了严重的信息安全问题。密码学是解决这个问题的最根本方法。而复杂的且种类繁多的密码学算法以及构筑在密码学算法上的各个层次的安全体系结构使
针对当前各种应用和服务系统在解决网络安全问题时各自为政的情况,本论文旨在给出一种应用与安全相互独立的透明网络安全体系,从而使应用开发人员无须考虑网络安全问题,将精力全
论文从网络通信出发,介绍会话窃取破坏通信双方的TCP会话,从而伪装成合法用户实施对系统的非法操作.论文对INTERNET的体系结构、以太网的链路协议,TCP的传输协议,TCP的传输、
该文首先详细介绍了数据仓库、联机分析处理与数据挖掘技术.然后有重点地讨论了数据仓库的构建模型和构建过程,并详细讨论了关联规则的挖掘模型和混合回归模型.最后以浙江电
作者提出了一个动态交互式Web应用系统,重点对其中的几种关键技术进行研究.首先,在系统中引入后台数据库,以实现大量复杂信息的有效管理和不同访问者的个性信息检索.系统中采
本文课题来源于中国国家信息安全测评认证中心重点项目,目前,该项目已经完成,并已通过测试及初步鉴定,将于2001年4月正式鉴定。 本文详细分析了在大型企业环境中使用IP电话时