论文部分内容阅读
工业控制网络是国家和社会的重要基础设施的控制网络,这些重要的基础设施关系到人民的正常生活。随着工业控制网络与互联网的高度融合,漏洞、攻击、病毒等网络威胁接踵而至。防御工控网络攻击需要挖掘出日志中的异常模式,数据挖掘能够发掘出常见的异常模式。但是工控网络的异常模式挖掘还存在忽视专业词语的分析、不易发现隐藏异常模式和挖掘模型过拟合等问题。针对这些问题,本文首先建立了一个工控领域的专业语料库,然后提出了一个基于编码的长短期记忆神经网络的异常挖掘模型,最后设计了一种改进的课程学习算法。具体工作如下:1.为了增强模型分析专业词语的能力,建立了一个工控领域的专业语料库。将消极词语与积极词语等普通词汇对应转换为专业词汇,并新增工控特殊状态词语,不同类别的词语设置合理的权重,建立专业语料库。实验结果显示使用专业语料库的异常挖掘模型准确率提升了 4%。2.为了深层次挖掘出隐藏的异常模式,提出了基于编码的长短期记忆神经网络异常检测模型。采用上下文日志相结合的策略,将多行日志数据转换为状态序列,并将该状态序列进行编码,分离出正常模式与异常模式。实验结果显示编码的异常挖掘模型能有效区分正常数据和异常数据,编码模型的F1值提升了 6%。3.为了减轻异常挖掘模型中的过拟合问题,提出了一种改进的课程学习算法。首先设计了一种平均频繁次数和长度最短优先的工控数据排序算法策略。然后使用正负样本同时训练,根据损失值判断所属类别,改进后的课程学习算法减少模型训练的次数。通过实验表明课程学习算法的改进使得模型训练次数减少了一半,从而减轻了模型的过拟合问题,同时在公共数据集上模型检测的准确率提升了 2%。