论文部分内容阅读
异常检测在机器学习和模式识别领域可以看作是单类分类问题,单类分类器仅需使用正常数据进行训练,但是可以将待测样本分类为正常数据或异常数据。迄今为止,出现了很多单类分类器,其中最为常用的是一类支持向量机和支持向量数据描述。在为单类分类器选取参数时,一般是使用交叉验证的方法,如果参数选择的不合理,所得的单类分类器就不能对正常数据的分布很好地加以拟合,构造出的分类边界就不够紧致。为了提高单个单类分类器的性能,可以将多个单类分类器按照一定的规则加以集成,使最终得到的分类器更好地对正常数据的分布进行拟合,从而产生更加紧致的分类边界。AdaBoost方法是一种常用的分类器集成方法,而一类支持向量机是强分类器,用作AdaBoost集成方法的基分类器,集成效果不显著。故此,我们将AdaBoost方法加以改进,使其适用于一类支持向量机。此外,还提出了一种支持向量数据描述选择性集成的方法。该方法首先利用相交相关熵和自相关熵分别代替负相关学习中的训练误差和负相关项,建立相应的权重优化模型。然后通过半二次优化技术获得最优的权重向量。在保证分类准确率的前提下,剔除不起作用的基分类器,从而达到提高集成性能的目的。实验结果表明第一种方法(基于改进AdaBoost的一类支持向量机集成)能够提高单个一类支持向量机的分类性能。第二种方法(支持向量数据描述选择性集成)能够有效地减少集成中基分类器的个数,并能使分类准确率不低于甚至高于使用所有基分类器的集成方法。