论文部分内容阅读
近年来,信息技术高速发展,数据采集和存储技术不断进步,无论企业、科研机构、政府机关等都积累了大量且结构复杂的数据。在获得海量数据的同时,如何从中快速、有效地提取有价值的知识是近年的研究热点,而数据挖掘就是提取潜在有价值知识的有效技术。随着挖掘异常数据必要性的增加,离群数据挖掘任务越来越受到广泛关注。如网络入侵检测、病例研究、商业分析等,罕见事件往往比普遍的事件更具有价值,这表明某些离群数据本身并非错误,这些数据常常蕴含着非常有意义的知识。因此,检测离群数据成为许多领域的研究热点。现有的离群点检测算法大致可以分为以下几类:基于分布的、基于距离的、基于深度的、基于密度的以及基于聚类的离群点检测算法。基于密度的局部离群点检测算法,并非将离群点看作一种“非此即彼”的二元性质,而是评估一个对象是离群点的程度。基于密度的离群点检测算法具有更广泛的应用前景。本论文主要研究基于密度的局部离群点和集体离群点检测算法。通过分析研究已有的基于密度差异的局部离群点检测方法,提出了基于属性密度差异的局部离群点检测算法;分析集体离群点,将聚类思想引入基于属性密度差异的集体离群点检测算法,并改进离群因子计算方法。具体内容如下:针对局部离群点检测,基于属性密度差异的离群点检测算法考虑不同属性对离群性作用的差异性,利用信息熵确定离群属性,为数据点计算加权距离,并给离群属性赋予较大的权重。在处理高维数据时,确定次要属性后采用属性约简方法,在保证检测精度的同时降低计算复杂度。理论分析和实验表明,该改进算法能更准确估计数据密度,参数少,能很好地适用于高维数据,整体性能优于同类算法。针对集体离群点检测,引入聚类思想明确数据集的结构特点,在应用基于属性密度差异的离群点检测算法估计初始聚类中心后,应用FCM形成聚类簇,然后通过一定规则区分大簇和小簇,最后利用改进的因子计算方法计算基于密度的离群因子DBLOF。算法认为小簇更有可能是集体离群点,聚类的主要目的是得出离群簇偏离聚类簇的知识。实验证明,在检测集体离群点时,该算法性能比较稳定。