基于共享最近邻的聚类算法的研究与应用

来源 :桂林理工大学 | 被引量 : 0次 | 上传用户:tom0101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文针对现有的共享最近邻聚类算法,提出一种新型的基于共享最近邻的聚类算法,并将改进后的算法应用到真实数据集和零件的组合过程中。通过聚类结果和实验仿真表明,本文提出的共享最近邻算法能够提高算法有效性,同时节省算法执行时间。  为了避免求k-最近邻带来的庞大计算量,本文提出一种k-最近邻空间划定方法,降低算法的整体时间复杂度。根据先验知识给出待划分维的数目,在确定个数的特征向量上进行操作,有利于减少求点对之间距离所需的计算量。根据方差最大化原理确定待划分的维,在较为离散的数据分布中获得相对理想的划分效果,使其能够最大程度地代表数据对象的基本特征,同时提高搜索效率。最后,对确定的维进行基于密度的划分,每个数据对象在其数据空间范围内对k-最近邻进行求取。该k-最近邻空间划定方法极大地减少算法的计算量,在保证结果精度的前提下大大提高算法执行效率。  传统的共享最近邻定义只针对共享数据对象的个数,并没有充分考虑距离带来的影响,具有一定的局限性。改进后的共享最近邻综合考虑数据对象距离远近和个数两个因素,通过权值的方式对邻近性度量进行优化,体现其距离意义,使度量标准更符合实际要求。  在k-最近邻空间划定方法和改进后的共享最近邻定义的基础上,本文提出一种新型的基于共享最近邻的聚类算法。通过在真实数据集Iris和Pendigits上的聚类实验表明,优化后的算法运行速度更高、聚类结果更准确,其优势在大规模数据集中体现地更加明显。  将改进后的算法应用到零件组合的实验中,以聚类后的簇为单位进行组合,有效地避免传统的以零件为单位进行组合带来的庞大计算量。通过两种算法在零件组合实验中的运行结果可知,改进后的聚类算法具有更高的聚类精度,同时大大减少算法的运行时间。为了更好地适应实际的大批量生产模式,使用改进后的算法对不同规模数据集和不同维度数据集进行聚类。通过实验仿真结果可知,本文提出的共享最近邻算法具有较高的可伸缩性。
其他文献
近几年来,随着电子通信技术的飞速发展,特别是无线通信技术的迅速普及和半导体芯片技术的不断成熟,短距离无线通信技术已越来越受到大家的重视。蓝牙(Bluetooth)技术以其低成
伴随着互联网信息爆炸式的增长,海量数据不断产生,人们在网络上查找所需文学作品的效率越来越低。并且随着文学在互联网中的高速传播与发展,盗版、侵权、肆意抄袭作品的形势
在这个科学技术高速发展的时代,人们越来越不满足文本作为信息的来源。随着计算机应用领域的发展扩大,图像已经成为人们重要的信息来源方式,也是人类彼此交流、认识和了解物
本文针对陕西移动建立投诉受理中心的业务需求,提出了基于PBX(Private Branch Exchanger)呼叫中心的解决方案,并在Windows平台上实现,同时对其中所涉及到的TAPI技术、CTI技术
为了满足软件工业化生产的需要,缩短应用系统的开发周期,克服传统工作流管理系统重构和复用困难等问题,本文提出了基于关系数据库的轻量级工作流管理系统自动生成的技术方案
上世纪90年代,互联网的兴起加速了信息与知识的传播。近年来,随着计算机的普及以及硬件性能的加速提升,以文本方式呈现的信息数据正急速膨胀着。大规模信息检索系统的出现为
学位
在互联网高度发达的当代,云计算的诞生为人们的生活带来了极大的便利,它可以使用户能够即时方便地使用网络中的各种资源,使企业能够实现较低的成本和较高的性能解决海量信息存储
本文主要研究了一套用于测量电爆炸实验中电流的装置,并建立了电爆炸实验仿真模型,通过对仿真结果和实验结果的对比分析,得出不同参数对于电爆炸断路开关开断性能影响的规律,并验
随着大规模数据库的广泛使用和Internet的迅速发展,全球范围内数据库中存储的数据量迅速增大。如何从海量的、多样的数据中挖掘潜在的、有用的信息,成为当前知识发现的主要研