论文部分内容阅读
工业控制系统是实现智能电网、智能制造等的核心与关键。开放性、智能化、网络化、实时性等导致工业控制系统面临严峻的信息安全挑战。工业控制系统的入侵具有时间跨度大、先验知识少等特点,导致基于规则和基于批量学习的入侵检测算法在实时性和效率方面无法满足工业控制系统的需求。工业控制系统的入侵检测算法核心在于数据分布不平衡情况下的跨时空传感器与控制器信息快速、实时、准确分类。本文针对工业控制入侵检测系统的实时性要求,采用在线机器学习(online learning)模式,研究工业控制系统的入侵检测算法,实现入侵行为的快速、准确识别。针对工业控制系统实时生成大量数据导致的数据标记工作代价过大问题,和异常行为数据占比相对较少的数据类别分布不平衡问题,采用主动学习(active learning)思想,对代价敏感的在线梯度下降算法CSOGD做出改进,提出一种基于在线学习的代价敏感主动机器学习算法。该算法通过在二元分类中提升少数类的错误分类代价,使分类模型以更高的置信度给出分类预测结果,提升少数类的识别率;并通过选择信息量最大的数据样本给出标记,仅利用标记样本更新分类模型,在提升入侵检测模型分类准确率的同时降低数据标注工作量。结果显示,在美国密西西比州立大学提供的工业控制系统数据集上,本文所提基于在线学习的代价敏感主动学习算法对异常行为的识别准确率相比于CSOGD算法提高11.08%。针对工业控制系统中异常实时检测和异常行为种类识别的需求,提出一种基于在线学习的代价敏感多元分类算法。算法实时接收系统产生的数据,利用代价敏感的思想,根据数据样本集中各类别样本数量设计代价矩阵(cost matrix);基于代价矩阵设计错误分类损失函数,计算不同错误分类导致的模型损失并更新模型,以高置信度给出实时数据的预测结果,提高多元分类模型对不同类别异常行为的识别能力。结果显示,在美国密西西比州立大学提供的工业控制系统数据集上,对数据集中含量最少的那一类异常行为的检测准确率最高达到89.40%,相比于同类最优算法ROMMA提高55%。本文提出的算法实现了在线环境下的工业控制系统入侵行为及时检测、异常行为分类和检测模型实时更新,适用于工业控制系统中数据类别不平衡的入侵检测分类任务。