论文部分内容阅读
离群点是指数据集中和常规数据对象的产生机制完全不同的,不符合数据的一般规律,偏离常规数据对象的数据点,但是它们又可能包含着我们容易忽略的非常重要的信息。如在信用卡欺诈侦查、移动通讯等领域中,离群点是我们研究的主要对象。离群点会使我们从新的角度考虑问题,从而发现新的理论或者应用。离群检测技术具有重要的研究价值且广泛的应用在药物研究、用户行为分析、网络入侵检、股票证券交易、工业减损、金融等领域中。在金融分析中通过分析交易数据,检测是否存在金融欺诈;在市场分析中可用于确定极低或极高收入客户的消费行为,进而对客户分析、分类,然后对市场进行定向和预测;在医疗分析中在医疗分析中用于发现多种治疗方式的不寻常反应等。目前如何在大规模高维数据集中迅速有效地发现并处理异常对象成为一个很值得研究且很具有挑战性的问题。离群点检测的算法有很多,大体上可以分为:基于统计学的、基于距离的、基于密度的和基于偏移的离群点检测算法等。目前人工智能,机器学习和模式识别等领域发展越来越快,越来越多有效、新颖的离群点检测方法和技术也随之出现,包括自组织映射技术,人工神经网络技术,模糊粗糙集技术和分区技术等。然而现有的大多数离群点检测算法在一定程度上均存在一些缺点:检测精度不高,时间复杂度高,参数的设置对用户的依赖性比较强和算法的可伸缩性差等。针对大多数算法的检测精度不高,时间复杂度高局限性和算法的可伸缩性差的不足,本文在基于密度的局部离群点检测算法研究基础上提出了一种改进算法:(1)改进算法通过使用多组不同的参数得到不同的DBSCAN聚类结果,再对聚类结果进行整合,剪枝,得到初步异常数据集。使用多组参数进行聚类的目的是为了避免位于簇边缘的数据点被错剪,这样既能达到降低计算复杂度的效果,又能保证检测的精确度;(2)引入去一划分信息熵增量的概念,对数据对象的属性加权量化,给不同贡献度的属性分配不同的权值。之前的检测算法中属性的权值都是由专家决定的,有很大的人为因素,这就会对检测结果有很大的影响,去一划分信息熵增量就很好的解决了这一问题,也能更好地对高维数据集进行降维,使改进的算法对数据集维度有很好的伸缩性;(3)在DBSCAN的ε-邻域的查询过程中和计算局部离群因子的过程中使用邻域查询优化思想,能有效的缩小邻域的查询范围。(4)改进算法的有效性在真实数据集和模拟数据集的仿真实验中得到了验证。