论文部分内容阅读
近年来,以互联网为代表的信息技术已经成为当今世界科技领域中最有活力、发展最快的高新技术。并且随着互联网的迅速发展,网络上开始承载越来越多的新兴网络应用,基于传统的端口识别分类与有效负载分析方法已经不能满足对当今网络应用识别的需求,因此,需要研究一种有效的网络流聚类分类方法,以便准确、快速地从网络中识别出各类流量,从而对于网络管理和规划、网络故障与检测以及网络服务质量保障、网络安全等方面的研究都具有重大的现实意义。本文针对目前网络流量聚类分类中存在的一些问题,在这一背景下开展研究,主要工作如下:在基于无监督机器学习的流量分类方面,提出一种基于快速求解高斯混合模型的无监督聚类算法,用于研究网络流量的分类,使其达到更佳的聚类效果。通过与其他算法比较,来讨论此种方法在流量聚类中的适用性。仿真实验表明,该方法聚类精度高,经过初始聚类中心后的EM算法用于求解GMM有较高的估算准确性,有效地提高了EM算法的收敛速度。在基于有监督机器学习的流量分类方面,提出一种基于CFS+PCA双重流量特征选择算法,先使用CFS算法去除冗余和不相关的特征属性,然后结合主成分分析方法(PCA)对特征属性集进行降维,以便获得更好的特征子集,最后用于网络流量分类识别。实验表明,该双重特征选择算法优选出的特征子集,能够尽可能的在降低特征冗余度和维度的同时,包含较多的特征信息,从而保持更好的分类性能和较好的分类效果。