论文部分内容阅读
异常检测是一个涉及诸多研究领域和应用场景的重要问题。大多数关于异常检测的研究都是在特定的应用场景下进行的,例如网络环境中的入侵检测、金融行业中的信用卡欺诈检测等。多数应用场景中都存在着异常重要性分不均的问题,如何刻画异常的重要性,并设计能灵活处理不同重要性异常的检测模型,成为一个重要的问题。另外,隔离森林作为一个时间复杂度很低的异常检测模型,无法有效的处理复杂异常,如何提高其复杂异常的处理能力也是我们着重解决的问题。学术界和工业界已经存在多种处理异常检测问题的方法。然而大部分基于机器学习的异常检测研究都关注单一模型,单一模型在抗过拟合能力上存在一定的不足,作为近年来机器学习领域的热点,集成学习模型有着良好的泛化能力,而且在大量实际应用中展现出比单模型更好的预测准确性。本论文在前述背景下,研究如何合理应用集成学习思想解决异常检测中的上述问题。主要贡献如下:●提出一种基于梯度提升的、可自定义重要性指标的异常检测模型。模型通过改进梯度提升算法,设计带权损失函数来刻画不同异常类别的重要性,解决异常检测中异常重要性分布不均的问题。●提出基于重要性敏感加权随机森林和重要性敏感平衡随机森林的异常检测模型。模型通过将异常重要性分布不均的问题映射到类别分布不均的问题上,利用加权和平衡随机森林来处理异常检测问题。●提出一种基于异常敏感划分标准的隔离森林异常检测算法:该算法是对隔离森林的一种改进,在子决策树的构建过程中,提出了一种对异常敏感的节点划分标准,进而提高异常检测的准确性。本文使用KDD’99、NSL-KDD等若干数据集对上述提出的模型进行实验,并通过对实验结果的分析来验证算法的有效性。