论文部分内容阅读
信息通信技术对当今世界的社会福祉,经济增长和国家安全产生了重大影响。然而,信息通信技术也被一些有不良企图的人用于危害网络安全,谋取不法利益。禁止这些有害的网络活动是国际优先事项和重要研究领域之一,而其首要任务就是识别网络流量中的攻击活动,即使用入侵检测系统(Intrusion Detection System,IDS)进行网络异常检测。如今存在许多阻碍网络异常检测技术发展的问题,本文将着重关注其中的两个问题,第一,由于网络异常检测的数据集存在高维度、非线性的特点,限制了传统机器学习算法效果;第二,由于隐私原因,十分缺乏已标注的公开数据集。本文针对这两个问题提出并实现了三个基于机器学习的方法用于入侵检测系统。第一个是使用基于分类回归树(Classification and Regression Tree,CART)决策树的递归式特征消除(Recursive Feature Elimination,RFE)对网络异常流量数据集进行特征提取。使用RFE进行特征提取后能够减少数据集中的冗余以及无效特征,进而提升传统机器学习算法效果,并大幅缩短训练耗时。通过参考特征提取后保留的特征,可以在收集流量数据时减少所需的特征,有助于减轻主机的负担并有效避免一些采集用户隐私数据可能会引起的麻烦。第二个是使用基于类长短时记忆网络(Long Short Term Memory Networks,LSTM)的神经网络进行入侵检测,该方案证实了深度学习方法在高维度非线性的网络异常检测数据上有良好表现的事实。在收集到的网络流量数据维度较多且不便进行特征提取的场景下,又或是训练时间充裕的情况下能够使用神经网络获得非常优秀的训练效果,在追求准确率且主机运算资源丰富的情况下是优于特征提取的解决方案。第三个是基于变分自动编码器(Variational Autoencoder,VAE)的无监督入侵检测方法,该方法在网络异常检测数据集上获得了较高的准确率,验证了无监督学习算法在网络异常检测中的可用性。由于无监督学习算法无需标注数据的特点,该方法可以使用无标注的网络流量进行训练,有助于缓解网络异常检测已标注数据集不足的问题。