论文部分内容阅读
网络应用爆发式增长,网络流量急速膨胀,大量涌现的新型应用比传统应用具有更复杂的结构和流量模式基于流量识别技术,能够细粒度的管理和优化网络,引起了广泛的关注其中,基于流量特征采用机器学习的流量识别技术,具有较高的准确率,成为了近年来流量识别领域的研究热点特征选择通过去除无关冗余的特征,获得最优的特征子集,基于该特征子集能够降低学习算法的复杂度,提升分类的准确率及速度本文首先介绍了流量识别技术机器学习技术及特征选择算法的相关概念,并简单介绍了使用互信息进行度量及SU算法,在此之上提出了两种新的基于互信息的特征选择法:1.基于互信息的Filter式特征选择法运用改进的SU算法去掉不相关的特征,并基于互信息去掉冗余特征,通过反复调整阈值进行迭代,以提高分类准确率2.基于互信息的Wrapper式特征选择法运用改进的SU算法去掉不相关的特征,并基于互信息去掉冗余特征,直接使用分类器的分类准确率作为判断标准来指导算法进行迭代,以获得最佳阈值从而达到最好的分类效果在UCI数据集上的实验结果显示出,本文给出的两种特征选择算法具备较好的分类性能将本文所提出的特征选择法应用于网络流量的类别识别中,在Andrew W.Moore数据集上的实验结果表明,算法在保证了分类准确率的同时,取得了显著的特征约减效果本文选出的流量识别的最优特征子集,能够保证较高的分类性能并大大缩短分类器的分类时间,因此为合理且有效的特征子集