基于网格和最近邻居的聚类算法的研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:kawwq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,数据挖掘逐渐成为研究的热点。数据挖掘是从大量数据中发现知识,源于诸如数据库系统、数据仓库、统计学、机器学习、数据可视化、信息检索和高性能计算。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。 聚类就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类是数据挖掘的一个活跃的研究领域,对聚类的研究与实现具有重要的理论与实践意义。 本文研究数据挖掘中的聚类算法。针对现有的聚类算法中存在的问题,提出了几个新颖的算法。本文的主要贡献和创新工作包括: 1)为提高密度聚类算法效率并处理非空间属性约束,提出了基于网格和密度的聚类算法(GDBS)。GDBS具有密度算法的优点,也就是能发现各种形状的聚类并能屏蔽噪声点,而且执行效率还明显优于密度算法。 2)研究了CHAMELEON算法,剖析了在类间密度相差不是特别大时,该算法不能作出正确聚类的原因。通过实验发现严格k-最临近集(SKNN)比一般的k-最临近集(KNN)更能反映数据集密度的变化。 3)引入SKNN和LIN,用新的SIM(A,B)作为相似度指标代替RI(A,B),对CHAMELEON作了一种改进。本算法可以很好的区分不同密度、形状和大小的类,并且抗噪能力较好。算法对参数的选择也不是很敏感。 4)基于严格最近邻和共享最近邻的思想,提出一种新的相似度标准,并设计出一种新的SKNN聚类算法。该算法能够有效地处理包含有不同密度的簇的数据,并且能够很好地区分相连着的类密度相差不是太大的簇。而且在处理高维数据时,具有较低的时间复杂度。 5)搭建了模拟实验环境,通过模拟实验验证了本文算法的有效性。
其他文献
在油气勘探开发领域的储层识别研究中,神经网络模式识别技术是一种有效的工具.误差反向传播(BP)神经网络作为目前神经网络中最成熟,应用最广泛的网络模型,具有很强的非线性映射能
IMS(IP Multimedia Subsystem)是由3GPP组织定义的基于IP的新一代电信核心控制网络,采用控制和承载、控制和业务互相分离的机制,网络能力得到很大加强,同时支持固定和移动的多种
随着电信业的迅速发展,用户对新业务的需求不断增加,传统的以电路交换为主的电信体系已经不能适应新业务的需求,因此建设以软交换为核心的下一代网络势在必行。 下一代网络通
可执行程序的反编译是逆向工程中一个重要的研究领域,自高级程序设计语言出现之时,反编译就随之出现了。传统的针对过程式语言的反编译的研究已经颇有建树,而如今随着面向对象概
作业调度是影响面向大数据应用分布式计算的MapReduce框架性能的重要因素,成为近年来的研究热点。相互独立的周期性执行批处理作业是MapReduce环境下的重要作业类型。本文研究
排样是计算机技术和现代经济发展的产物。排样问题的目标就是尽最大可能在材料上放置尽可能多的零件,以减少材料损失。计算机辅助排样是广泛应用的计算机辅助技术之一,具有板
论文主要分三部分。第一部分(第二章),介绍了遗传算法的主要思想,起源,优点,缺点,主要应用框架,主要因素对遗传算法的性能的影响。第二部分(第三章),结合遗传算法的不足,有针对性的对
网络的飞速发展,政务、商务及日常生活的信息化,使得与公钥密码技术相伴的数字签名技术有了广泛的应用前景。数字签名之于数字文件,正如手写签名之于纸质文件,在电子商务和政务中
人们使用互联网方式的改变增加了对组播技术的要求。从视频会议到网络直播,从数据共享到多方游戏,网络带宽的耗费越来越高。以节省网络资源著称的组播技术无疑将发挥越来越重要
近年来,随着计算机视觉技术的快速发展,新兴的无人驾驶汽车、增强现实、虚拟现实等领域取得了显著的成绩,然而随着工业界的推进,这些领域在精度和效率上有了进一步需求,光流估计和