论文部分内容阅读
离群点检测是数据挖掘中重要的研究分支,用于识别某些特征显著区别于其他观测数据的对象。在实际应用如评估金融风险、检测结构的缺陷、侵入检测等领域中会出现的一些离群数据,它们往往预示了某些重要的信息。通过对检测出的离群数据进行分析,可以获取大量能用于预测和决策支持的有用的知识。因此,离群点检测是一个相当有意义的研究方向。 本文以离群点检测为研究背景,以提高分类数据离群点检测性能为主要目标,在介绍离群点相关的概念和主要检测方法的基础上,主要对基于加权频率和聚类、基于信息熵的半监督离群检测算法进行了深入研究并进行改进,具体工作如下: 1、分类数据集中含有多种属性,不同属性对数据对象的离群程度的影响是不同的。针对现有分类数据离群检测算法将属性视为同等重要的不足,提出基于加权频率的离群检测策略。根据属性对离群性的贡献程度赋予不同的权值,再结合数据的属性频率,计算数据对象的加权频率值。数据加权频率值的大小能够反应数据离群程度的大小。 2、针对基于频率的算法对多个频繁属性共同作用的离群点检测效果不佳的情况,通过对两种类型离群点进行定义,在加权频率离群检测策略的基础上,结合聚类算法提出基于加权频率聚类的离群检测算法。根据加权频率策略和聚类距离得到的数据离群程度的排序,构造得到最终的离群点数据集。该算法能够有效检测两种类型的离群点,从而提高离群检测率。 3、针对现有的大多数无监督分类数据离群点检测算法,误报率较高且精确率较低的不足进行改进,提出基于信息熵的半监督离群点检测算法,同时着重考虑训练集只有少量正例的特殊情况。结合半监督学习和改进的信息熵概念,使用正例(离群点)作为训练集剔除部分数据,在减小数据集规模的基础上再进行离群点检测,降低了算法复杂度并且提高了检测率。 实验结果表明,本文提出的改进算法都能提高离群点检测的检测率,且能扩展应用于分类大数据集,实验验证了算法的有效性。