基于K-核心空间和K-medoids聚类的离群点检测算法

来源 :燕山大学 | 被引量 : 0次 | 上传用户:zhmj1985
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
离群点检测能够挖掘出大量数据中包含有价值信息的少量数据,在实际生活中有着广泛的应用,因此离群点检测成为了数据挖掘中的热点问题。离群点检测的主要任务是检测出异常的数据,从而在这些异常数据中获得有价值的信息。基于密度的离群点检测和基于聚类的离群点检测是目前研究的热点问题。本文深入分析了离群点检测的相关方法,针对基于密度和基于聚类的离群点检测中存在的一些挖掘性能不佳的问题提出了改进策略,旨在提高离群点的检测效率。本文的主要内容分为以下几部分。首先,本文针对基于密度的离群点检测中存在的密度分布不均造成检测效率不高,以及引入反k邻域以后算法的运行时间明显增加的问题提出了一种基于K核心空间的快速局部离群点检测算法。该算法通过引入k核心空间把数据集中的对象划分为近k邻域点和远k邻域点,减少了需要计算反k邻域的点的个数,从而减少算法的运行时间。通过引入可达距离和可达密度减少距离统计波动从而提升了离群点检测的精确度。其次,针对已有算法对于具有多个簇且簇与簇之间密度不同,距离相隔较远的数据集检测效率不高的问题,本文根据离群点的属性——离群点距离密度较高的点较远,离群点的密度要比其邻居内的密度低,提出了一种基于K-medoids聚类的局部最小密度离群点检测算法。并通过MaxMin法选取聚类初始中心点,从而更加精确的找出每个簇中的所有离群点。最后,通过在真实数据集与虚拟数据集中验证算法,实验结果与已有算法进行比较,验证了本文提出的两种算法的有效性。
其他文献
学位
随着工业生产自动化系统不断发展,其安全性和可靠性受到越来越多的关注,研究基于数据驱动的调节阀故障诊断与容错控制方法,有助于提高系统的安全性和可靠性。本文针对调节阀
企业并购发展史在国际上来说已有一百多年的历史。时至今日,西方国家已经经历了5次企业并购浪潮。我国企业并购虽起步较晚,但发展迅速。2015年,我国共完成了2692起并购交易,其中,共有80起物联网企业的并购案例。物联网行业是当前最具发展潜力的行业之一,也是我国积极进行战略布局的行业之一,未来将呈现快速增长的态势。当前,物联网行业竞争激烈,企业间规模整合问题突显,如何扩张便成为众多物联网企业进一步成长
交替传译是一种广泛应用于各种场合的口译形式。其最显著的特点就是信息量大,时效性强。讲者讲话时,译员一边记录,一边进行信息处理。讲者结束一段发言后,译员必须在短时间内
随着互联网技术的高速发展,各个领域均会产生待处理的大规模数据。如何对这些数据进行处理和分析,成为了当代的研究热点。粗糙集理论为数据挖掘提供了一种有效地处理冗余数据的手段。但对数值属性进行处理时必须先将其离散化。模糊粗糙集能够直接对数值属性进行处理,减少了因数据离散而带来的数据信息损失和避免数据结构被破坏的优势,能够有效地对数据进行处理,已成功应用于数据挖掘、医疗诊断等领域。为了降低样本分布和类噪声
社会资本概念在1985年由布迪厄明确进行了界定,在此之后,科尔曼对社会资本理论进行了系统研究,随后普特南将这一概念全面引入经济和政治研究领城并得到广泛关注,并由此引发了大量学者进行研究,与之相关的社会科学文献数量呈现指数式的增长。学者们从不同的视角出发,探索了社会资本对个人、公司、社会,甚至对国家经济发展的影响。研究普遍认为,社会资本作为一种影响人们行为方式的制度、关系、态度与价值观念的综合体,对
《人民日报》是党的机关报,社论作为机关报园地,始终与党中央保持高度一致,积极宣传党的最新理论政策,对马克思主义大众化不断进行诠释。1989-2002年,马克思主义中国化面临新
中文分词是中文自然语言处理中最重要的一步,分词结果的好坏会严重影响后续任务的性能。目前的研究工作中多是使用深度学习方法来进行中文分词。这些研究工作大多数只用到句子中局部的上下文信息。近年来,将中文分词当作机器翻译问题来解决的新思路受到较多关注。基于这种思路的中文分词方法利用机器翻译模型直接对整个语句进行处理,能有效的利用全局的上下文信息。然而,机器翻译模型在翻译的过程中产生的错误翻译会导致分词的准
共振电子复合过程,是指一个自由电子被靶态离子共振俘获形成复合离子的共振激发态,随后通过辐射衰变放出光子的过程。共振电子复合是高温等离子体中的重要动力学过程,影响着
单图像超分辨率重建由于其在恢复图像细节和纹理方面具有很高的现实价值,所以一直是计算机视觉和图像处理领域的研究热点。深度神经网络能够学习低分辨率图像到高分辨率图像