论文部分内容阅读
在实际应用中,数据集通常包含正常数据和离群数据,相对于正常数据而言,离群点的产生机制往往与之不相同,所以离群点可能蕴含着重要的信息,研究离群点的内涵知识具有重要学术意义和广泛应用价值。对离群数据的研究主要包括离群检测与离群分析两个方面,然而现有离群数据研究都主要集中于对离群点的检测,离群数据分析方面的研究成果较少。在不同的属性子空间中,离群点会表现出不同的离群特性,在大多数情况下,高维数据空间中的对象是否离群往往取决于这些对象在低维空间中的投影。对于离群点的形成,不同的属性起着不同的作用,需要根据这些属性子空间将离群点按离群性质进行分类,以揭示离群点的产生原因。针对这一问题,本文引入离群属性和离群簇等一系列概念,以现有离群挖掘技术为基础,重点对离群数据集的分类、离群性质、释义空间以及产生来源等进行分析,提出了一种利用离群分类来进行离群点分析的方法。具体来讲,本论文的主要研究工作如下:①对离群分析在离群挖掘中的理论意义和应用价值进行了介绍,并考察了离群检测技术和离群分析方法的国内外研究现状。②对各种离群挖掘技术的核心思想与各自的适用范围进行了分析,并总结出了这些技术所存在的优点和缺点,重点讨论了当前具有代表性的离群分析方法。③研究和比较现有的聚类分析方法,对部分聚类算法的改进方向进行了探讨,并详细介绍了聚类算法在离群挖掘中的应用。④通过分析离群点和聚类簇的相互关系,利用通过聚类算法检测出的离群点的特点,提出了一种基于聚类的离群点分析方法。论文中详细阐述了该方法的设计思想和主要内容,并提出了离群属性、平凡离群点、非平凡离群点和离群簇等相关概念。⑤以基于聚类的离群点分析方法为基础,设计并实现了基于聚类的离群点分类算法CBOC(Cluster-based Outlier Classification),在实验数据与真实数据集上验证算法的分类能力,并对算法的时间空间性能进行了分析。⑥最后合理总结了本文进行的所有工作,对全文工作中的优点和不足进行了分析,并对以后的工作提出了进一步研究目标。