论文部分内容阅读
将高维数据投影在子空间中,是解决"维灾"的有效途径之一。从提高挖掘效率的角度,给出一种新的基于子空间的两阶段离群检测算法,利用密度阈值筛选候选离群对象减少计算量。该算法首先,计算每个数据对象在每一维的密度比,所有维的密度比乘积取对数平均作为密度系数,并选取候选离群对象;其次,候选离群对象的邻居在每一个关联子空间中的偏离程度之积作为偏差比,密度系数与偏差比的乘积作为离群系数,并确定离群数据对象。由于仅计算候选离群对象的离群系数,因此有效地提高挖掘效率;最后,采用UCI数据集,实验验证了该算法不仅保证挖掘结果