论文部分内容阅读
作为重要的数据挖掘任务和数据分析技术,聚类分析和离群点检测已被广泛研究,取得了丰硕的成果并应用到众多领域,引起学术界、工业界和各国政府及军队等部门的密切关注。目前,数据挖掘的研究主要针对简单和结构化的数据集。但是随着数据收集技术、计算机网络和数据库技术的迅速发展,各种复杂类型的数据有了爆炸性的增长,因此迫切需要对复杂数据类型探索新的数据挖掘技术。本文从改善轨道聚类效果、提高算法时间效率和屏蔽输入参数敏感性等角度对轨道聚类和空间离群点检测中亟需解决的问题进行了研究,主要工作如下:(1)在已有的轨道聚类算法TRACLUS和基于密度的聚类等相关技术基础上,引入了一种基于邻域的机制,提出了一种基于邻域的轨道聚类改进算法NBTC。NBTC解决了TRACLUS由于使用两个全局参数Eps和MinLns,存在不能从大的、稀疏的轨道聚类中识别出小的、稠密的邻近轨道聚类这一缺陷。在真实和合成轨道数据集上的实验结果表明,NBTC在保持TRACLUS时间效率的同时改善了轨道聚类效果。(2)将取样技术引入轨道聚类,提出了一种快速轨道聚类改进算法FTCS。FTCS根据基于极大连通子图的合并原理,对核心线段的Eps邻域以及与该Eps邻域相重叠的所有轨道聚类进行合并,避免了TRACLUS中核心线段Eps邻域内线段的不必要邻域查询,解决了TRACLUS的线段聚类模块需要对划分后的每条线段进行邻域查询的问题。实验结果表明,FTCS显著降低了邻域查询操作次数,在保持TRACLUS轨道聚类质量的同时提高了轨道聚类的时间效率。(3)根据对象的邻域、反邻域和局部密度构造了基于邻域的局部密度因子,提出了一种屏蔽输入参数敏感的离群点检测方法ODINP。ODINP一个非常显著的优点就是只需要一个输入参数k并对k不敏感,解决了大多数基于密度的离群点检测算法需要设置两个输入参数并对输入参数很敏感的问题。大型、任意形状和高维数据集的测试结果表明,ODINP在保持已有基于密度的离群点检测算法高效性的同时,离群点检测结果的覆盖率和纯度都很高。(4)为了提高离群点检测的时间效率,提出了一种基于空间单元邻域和密度的快速离群点检测算法NDOD。NDOD吸收基于网格方法的思想,首先将数据划分到若干个空间单元,然后利用广度优先来扩张空间单元邻域,可快速排除非离群点,并避免了ODBSN算法用随机方法来扩张方形邻域所带来的方形邻域重叠,最后根据基于影响空间的局部离群因子进行离群点精选,解决了ODBSN在离群点检测结果方面的缺陷。测试结果表明,NDOD是有效的、高效的。