一类高效的聚类有效性指标及应用

来源 :天津大学 | 被引量 : 0次 | 上传用户:quyeliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类技术是一门应用十分广泛的技术,它作为无监督模式识别学习过程的一个重要部分,从上世纪以来一直被深入的学习和研究,并在机器学习,数据挖掘和模式识别等重要研究领域得到了广泛的应用。聚类的目的在于通过把原来的分散的、看似毫无关系的对象集合分成相似的群或簇,来获得某种内在的联系或是数据规律。聚类分析的一个关键任务是量化地评价聚类结果,尤其是确定一个最优的类数或划分结构,而聚类结果的好坏是由聚类有效性来判定的。在工程界已经提出许多有效性指标量化地估计和评价模糊聚类算法对于给定数据集的聚类结果。但是由于不合理的结构和极大的时间耗费,迄今这些有效性指标几乎都无法满足应用的一般性需求。本文在对聚类有效性分析原理理解的基础上,通过对多种聚类有效行指标的介绍及比对,首先提出了一个基于Gerschgorin圆盘定理的聚类有效性指标来估计模糊聚类的类数,其次,在基于k-means算法和FCM算法的基础上提出了两种新的聚类有效性指标。本文做了以下几个方面的工作并进行了较为深入的研究:1.在分析聚类有效性分析原理的基础上,重点阐述多种聚类有效性指标的原理与过程,总结了Xie-Beni指标、DB指标、PB指标、熵指标等聚类有效性指标的原理及应用,并对常用的各种聚类有效性指标从运算速度、聚类精度等角度进行分析对比。2.提出一个基于Gerschgorin圆盘定理的聚类有效性指标来估计模糊聚类的类数。首先,由模糊聚类结果计算一个不同类之间的相关矩阵,接着求出该矩阵的特征值和特征向量,最后,基于经典Gerschgorin圆盘定理求解最优的类数。3.提出了一个存在于任意数据集中的不变量,结合目前广泛使用的c-means算法和FCM算法,提出了两对分别用于评价硬聚类结果和模糊聚类结果的有效性指标,并分析了它们的基本特征,通过两组实验,对这两对有效性指标的正确性、一般性和时间效率做了检验。
其他文献
与传统的载人飞机相比,无人直升机不仅可以低空盘旋飞行,执行多种任务,而且隐蔽性好,能够有效地避免或减少人员伤亡。独特的飞行特点,使其在军民两个应用领域都发挥了积极的作用。
并网逆变器是光伏发电系统的一个核心部件,其控制技术一直是研究的热点。其使用的功率器件属于电力电子设备,它们固有特性会对系统产生不利的影响,为了防止逆变器中的功率开关器件处于直通状态,通常要在控制开关管的驱动信号中加入死区,这给逆变器输出电压带来了谐波,对电网的电能产生污染,为此本文利用重复控制并联PI控制的方法,基于空间电压矢量控制脉宽调制技术来改善系统的输出电能质量。文中首先建立了系统的模型,通
精馏过程是石油化工工业和化学工业中最为广泛的传质单元操作过程,也是石油化工领域中耗能最大的单元操作过程之一。乙烯精馏塔是分离裂解气分离得到乙烯产品的最终精馏塔,乙烯塔的设计、操作的水平直接关系到乙烯产品的质量、收率与能耗。对精馏塔进行优化操作,可以减少乙烯损失,提高精馏塔的生产能效水平,对提高企业的经济效益具有重要意义。乙烯精馏塔的工艺机理和操作比较复杂,干扰因素多,具有如下的特点:(1)精馏塔具
近年来,多目标优化问题吸引了越来越多不同背景的研究人员的注意力。而应用中的大多数多目标优化问题往往是随时间动态变化的,这类问题被成为动态多目标优化问题。由于动态多目
脱机手写体汉字识别因其重要的理论意义和实用价值已成为模式识别领域中的热门课题。汉字识别属于超大规模的分类识别问题,而脱机手写体汉字由于书写的随意性和不规范造成的汉
由于工业过程的高度非线性和复杂性,非线性系统最优跟随控制的研究一直是控制领域的热点。本文借鉴大数据时代从数据角度考虑问题的思想,从研究现有数据驱动控制的方法着手,以支
在控制理论的研究中,人们常常关注的是李雅普诺夫稳定性理论,而在实际工程应用中,尤其是针对一些工作时间短,反应快的系统,通常的李雅普诺夫稳定并不能达到预期的控制效果,有
混沌学研究的是非线性系统,它是研究非线性理论的一个重要分支。在日常生活中,混沌现象随处可见,如点燃的香烟、滴水的水龙头、湍流、气象变化、风中飘着的旗帜等等。随着混沌学
工业信号4-20mA的电流信号和0-5V的电压信号已成为当前工业信号的标准,随着科学技术的发展,通过对传感器转换的工业信号的数据观察显得尤为重要,同时人们需要能够更准确、快速、
虚拟手术是虚拟现实技术与现代医学的完美结合,相应地虚拟手术仿真系统是一个通过在视觉和触觉等多方面为用户提供逼真的虚拟手术场景以对新任外科医生进行术前培训的虚拟现