论文部分内容阅读
异常数据检测问题是统计模型和估计领域中很重要而且很完整的一个方面。当处理高维数据,即数据的维数和样本个数一起增长的数据的异常检测问题时,由于样本协方差矩阵的逆矩阵的存在性问题,基于马氏距离的传统方法往往不能使用。因此提出了利用修正的欧氏距离的高维数据异常检测方法。该方法具有标量不变量的性质。在此方法中,介绍了一个新的概念-最小对角线乘积(MDP)估计,并利用此估计代替了传统方法中的最小协方差行列式(MCD)估计。检验所需的临界值由欧氏距离的渐进分布所确定,可使既能够控制第一错误概率,又能稳健地检测出异常数据。此外,在此基础上,还提出了单步改善的检测方法,使得异常检测更加有效。通过模拟,发现了在本文中提出的方法比现有的异常检测方法有更好的结果。最后,我们把本文的方法应用在来自机器学习实验中的实际数据。