基于增广非共享近邻的聚类算法和聚类有效性指标研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:loveherway110
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类分析的目标是对一组数据进行分类,使得相似的数据归为同一类别,不相似的数据归到不同类别。近年来,聚类分析在生物医学,图像处理和自然语言处理等多个领域有广泛应用。由于现实生活中的数据分布复杂,存在形状不规则,密度分布不均匀等特点,现有的聚类算法无法得到满意的结果。另外,大部分的聚类算法需要预先输入聚类数目,但实际情况下无法预知该值。为解决上述问题,本文引入了稀疏因子和增广非共享近邻的概念,并在此基础上,分别提出了聚类算法和聚类有效性指标。具体来讲,本文的主要工作如下:(1)提出了一种基于稀疏因子的数据点密度定义方法。密度峰值聚类算法因其算法思想简单而被广泛应用,但该算法的性能易受截断距离影响。为解决该问题,本文首先在数据点的k近邻点基础上定义了稀疏因子,接着,根据数据点的稀疏因子动态调整其截断距离,最后,利用测地距离计算数据点的局部密度,使得聚类中心受数据点稀疏分布的影响较小。(2)提出了一种基于增广非共享近邻的密度峰值聚类算法(knn MST)。cci MST聚类算法能识别不同形状的簇,但该算法在密度相差较大的数据集上容易出错。为解决该问题,本文引入了增广非共享近邻的概念,并在此基础上,定义了数据点对的不一致因子。最后,计算聚类中心所在路径上数据点对的不一致因子,删除最大不一致因子所对应的边,得到聚类结果。(3)提出了一种基于增广非共享近邻的聚类有效性指标(ANCV)。ANCV指标基于以下原则:首先,簇内距离可以利用共享近邻数较少的数据点对之间的距离来衡量;其次,相邻簇对交界处的数据点对之间的距离可用于度量簇间距离。在此基础上,将上述点对进一步扩展到它们的增广非共享近邻,将簇内与簇间的增广非共享近邻点对视为处于稀疏区域的小簇,分别计算这些小簇内所有点对的平均距离作为簇内距离与簇间距离。最后,根据簇间分离度与簇内紧致度之差评估聚类结果,从而得到最优聚类数目。(4)实验中,我们将knn MST与K-means,cci MST,NTHC等8种聚类算法在6个二维合成数据集与8个真实数据集进行了对比。另外,我们还将ANCV与Dunn,DBI,CH和SIL等13聚类有效性指标进行了对比实验。实验结果表明,本文提出聚类算法和聚类有效性指标的性能优于对比算法。
其他文献
点胶是微电子封装和表面贴装中必不可少的工序之一。时间-压力式点胶因为结构简单、设备维护方便而被大规模使用,但其缺点在于难以保证出胶量的高精度和高稳定性。长期以来,人们一直在研究如何对时间-压力点胶系统进行建模,以便实现自动控制。然而由于点胶涉及胶体流变特性和气体可压缩性,模型的效果和精度较难保证。近年来,随着深度学习技术的发展,深度神经网络被广泛应用于工业生产和自动控制领域。深度神经网络具有较强的
学位
随着城镇化和现代化的迅速发展,我国汽车拥有量不断增加,这就造成了城市面临交通拥堵的严峻考验。为解决这一难题,准确而有效地进行交通流量预测已成为智能交通系统中至关重要的一部分。交通流量预测是否准确可靠,对提供数据驱动交通智能决策,优化交通调度,从而降低交通拥堵具有重要意义。时空数据蕴含巨大的应用价值,对时空数据的智能分析和预测是智慧城市和空间大数据领域的重要问题。有效发掘时空数据的时空规律和知识,对
学位
目前在我国的眼底医生只有三万人左右,面对十几亿人,没有方法进行大范围的检测。近年来,大量的研究表明,通过人工智能、机器学习等技术手段,能够有效地提高医务人员的工作效率,显著地降低医务人员的劳动成本,并在一定程度上缓解了医务人员的紧缺。通过人工智能神经网络模型的分析结果,可以将眼底检查的工作效率提升数十倍甚至数百倍,从而能够从庞大的群体中筛选出有问题的群体,并实现对其进行定量分析,这是一项重大的技术
学位
近年来,随着国内外学者对微机光电系统的不断研究,微机光电技术被广泛应用在各个领域。而MEMS电磁驱动式微镜作为其中最具潜力的一项应用产品,以其响应速度快、响应频率高、集成度高等特点被广泛应用于航天工业、激光通信、汽车行业等多个领域。其工作原理是通过给电磁线圈施加驱动电流,使其产生电磁场,反射镜面与其发生作用产生洛伦兹力从而发生偏转。通过控制驱动信号的幅度和频率,即可控制电磁驱动式微镜在二维方向上的
学位
传统的状态估计方法,如卡尔曼滤波、极大似然估计等,通常需要系统噪声或干扰的统计特性已知或部分已知。但在实际应用中,由于观测数据不足,很难获取噪声或干扰的统计特性,因而具有一定的局限性。集员估计作为一种基于区间或集合的状态估计方法,假设系统的噪声或干扰未知但有界,可以得到系统的可行状态集。基于状态估计与残差的故障诊断方法在工业与控制领域得到广泛应用,由于状态估计的保守性问题,残差的选取对故障诊断影响
学位
随着科技的发展,教育信息化的普及为教育工作提供了史无前例的机会和挑战。大规模开放在线课程MOOC变得普及,学习者可以根据自己的时间和地点自由选择课程、自主学习。随着MOOC平台和课程的不断涌现,网络上拥有了大量丰富的学习资源,为学习者提供了更多的选择,但也使得他们面临着更多的知识挑战,知识分散、碎片化等问题日益突出。本文旨在通过“数据结构”MOOC课程的知识图谱可视化展示,深入探讨知识结构及知识点
学位
近年来,全球男性不育问题越来越普遍,导致不孕症患病率不断上升。虽然辅助生殖技术(ART)的使用越来越普遍,但由于精子和卵子的质量对ART的影响很大,因此需要对精液质量进行评估。然而,传统的人工精液评估方法存在成本高昂和人为误差等问题。近年来,随着计算机视觉技术的快速发展,基于计算机视觉的精子检测算法逐渐研究热点。然而,这些算法在算法流程和计算量方面存在一定的复杂性,导致其在实际应用中存在一定的局限
学位
个性化推荐是一种广泛应用的技术,但流行度偏差已成为该系统的一个重要问题。为了解决这个问题,本文提出了一个方法,即通过动态的商品流行度作为排序依据来推荐长尾分布以优化商品序列化推荐结果,从而缓解流行度偏差。本文的研究分为两个部分,即流行度的表征和预测以及融合商品流行度信息的序列化推荐。为了更准确地提取商品的动态流行度信息,本文提出了一种新的图结构,命名为“用户商品流量图”。并设计了新的采样方法和聚合
学位
上海市作为全国范围内最早将武术项目纳入中考体育的地区,特定的武术考试规则,考生,裁判员以及考试环境构成了武术考试项目。裁判员能够严格按照武术考试规则与章程对考生进行执裁的水平,对中考体育改革下的武术考试能够公平、公正地举行起到了决定性的作用,同时间接影响中考下其他项目评分方法的发展。然而对于应试类体育考试项目裁判员执裁水平评价的研究相对滞后,武术项目作为传统文化的载体,其执裁的公平性一直饱受争议,
学位
在信息快速传播的互联网时代,越来越多的用户乐于在社交平台上发布自己的评论,虽然为情感分析带来强大的数据支持,但是会导致“信息过载”从而难以获取到真正所需的信息。所以从海量关系数据中分析并挖掘有用的信息,在此基础上进行准确的情感预测是情感分析领域研究的热点。当前的情感分析方法大多注重文本信息并且其方法取得了较大的成效,但是它们在提取用户的潜在情感方面显得尤为不足。对无文本信息或者使用反讽文本的用户,
学位