论文部分内容阅读
随着通讯技术的发展及异构网络的广泛融合,网络数据呈现爆炸式增长态势。虽然其中的异常事件属于稀有类,但仍会对国家、企业及个人造成严重打击和损失。如何提高稀有类识别率已成为网络安全领域亟待解决的问题。本文以网络异常数据中的稀有类为研究对象,以稀有类的分类问题为切入点,以代价敏感学习为支撑,以概率论、混沌理论、信息论、统计学为理论基础,首先从数据特征入手,提出一种基于混沌遗传的代价敏感特征选择方法,设计了基于文化基因构架的高效代价敏感特征选择方法;之后从数据实例角度出发,并提出适用于不平衡数据集的双向实例选择分层策略。通过上述策略及方法的使用,能够对较大规模不平衡网络异常数据进行分类前的综合优化处理,从而有效提升后续异常分类识别的效果。本文主要工作及所取得研究成果包括以下三个方面:(1)提出一种基于混沌遗传的代价敏感特征选择算法针对网络异常数据类不平衡问题,引入代价敏感学习理论到特征选择方法,聚焦于特征选择阶段的代价因素,设计出一种代价敏感特征选择算法CSFSG,应用于网络异常数据分类。综合考虑网络异常事件识别过程中误分类代价及测试代价,借鉴贝叶斯理论,基于最近邻规则构造代价敏感适应度函数,利用混沌运动系统固有特性改进基于Tent混沌映射优化的遗传搜索策略,改善遗传搜索后期的收敛问题,以提高搜索速度。CSFSG注意两种代价均衡关系,以最小化总代价为目标。实验表明,CSFSG能够有效简化特征选择过程得到有助于稀有类异常数据识别的特征子集,进而达到可以降低算法运行成本,提高异常攻击识别精度的目标。(2)提出基于文化基因构架的高效代价敏感特征选择算法针对大数据在资源受限环境中分析成本高、效率低的问题,改进基于文化基因构架的传统特征选择方法,引进贝叶斯理论构造代价矩阵,提出了一种以降低总误分类成本并提高分类性能为目标的高效代价敏感特征选择算法CFSM。该算法使用遗传算法进行全局搜索,引入误分类代价因子的总成本函数构造适应度函数,通过使用近似马尔科夫毯以信息相关系数为评价指标,微调增加相关特征,移除冗余或不相关特征,以提高最优子集寻优收敛速度。实验结果表明,CFSM在稀有类识别上表现出较好的性能。与基于遗传算法的传统文化基因架构下特征选择算法及代价敏感特征选择算法相比,该算法更加高效且能以更少的特征及误分类代价获得更高的分类精度。(3)提出基于稀有类拓展的双向实例选择分层策略当不平衡的网络数据遇到大规模化问题,往往会造成网络异常攻击识别率降低,甚至失效。本文基于经典分层理论,提出基于稀有类拓展的双向实例选择分层策略。该策略根据实例类别选择多数类,然后借助属性与均匀分布随机点定理构造随机数表达式的方式将其拓展为iSMOTE稀有类,并使得数据集趋于平衡。实验结果表明该策略可以有效提高稀有类别实例数量和分类效果,尤其在处理数量特别稀少的稀有类及数据量整体规模较大的数据集时,其效果更加显著。