论文部分内容阅读
在机器学习研究中,聚类作为一种无监督学习方式,得到了来自统计学、计算机科学等领域研究者的广泛关注,它不但是数据挖掘的重要组成部分,也是模式识别领域中备受关注的基础问题。在聚类分析中,数据元素是按照相互之间的相似性进行分类的。聚类的目标就是最大化同类数据元素之间相似性的同时,最大化不同类数据元素之间的差异性。并且,由于聚类的无监督特性,对于聚类结果合理性的判断也是需要探讨的课题。综合来看,聚类分析涉及到三类相似性度量,即数据对象之间的相似性、类对象之间的相似性以及不同聚类结果之间的相似性。因此,采用聚类分析方法来完成图像处理任务时,相似性度量是其中的关键问题。本文首先对聚类分析的概念、处理过程、算法分类、相似性度量问题以及聚类在图像处理中的应用作了简要概述。然后本文以信息论中的经典理论为依据,从信息的角度分别对聚类分析中三类相似性度量问题进行了探讨,并针对图像处理中的几类问题,即图像聚类、轮廓编组、图像过分割的处理以及图像分割的评估,验证了所提出方法的合理性和有效性。本文的主要创新点简要概括为:第一,数据对象之间的相似性度量之一——采用Bregman散度处理复杂数据对象的相似性度量。在对图像数据进行相似性度量时,需要同时考虑两方面的问题,即如何对图像数据进行表示,以及采用何种度量方法评价两个图像数据对象之间的相似程度。本文提出在信息瓶颈理论框架下,将“词袋”模型的图像表示与Bregman散度度量相结合,实现了更具有语义信息的图像内容聚类。该方法概括来说有以下三个特点:采用“词袋”模型的图像表示可以利用多种先进的特征提取算法(如各种兴趣点检测技术)捕捉到图像中更丰富的内容信息,并产生基于视觉单词的特征分布:根据信息瓶颈理论,图像聚类的目标是使得聚类后图像变量与特征变量之间的互信息损失量最小;采用Bregman散度聚类算法最小化互信息损失量,算法步骤与k-means相似,且Bregman算法中的KL距离对应着k-means算法中的欧氏距离。第二,数据对象之间的相似度量之二——利用数据对象之间的多元相似性关系提高聚类算法的抗干扰能力。对于用聚类方法来进行轮廓编组,我们提出在基于信息的聚类方法的框架下,通过多特征编组线索来计算数据对象之间的“集合相似度”,而不再限于二元相似性度量值,得到的度量量值也称为多特征相似度或多元相似度。然后,我们将多元相似度值作为输入,用信息聚类的方法来对边缘特征进行编组。实验结果表明,相对于二元相似度,基于多元相似度的轮廓编组质量在相同误差或干扰条件下(如存在特征描述误差及背景噪声数据)有明显的提高。第三,类对象之间的相似度量——提出将信息学习理论中定义的信息势和Renyi’‘交叉”熵用于聚类中子类间的相似性度量。对于一些容易产生过分割的算法,我们可在初始分割的基础上,根据类间信息熵的大小,采用聚合迭代的方法得到层次化的聚类结构。实验结果显示,在几种具有代表性的人造数据集上基于信息熵的类间距离度量方法比三种传统度量方法(单联接、完全联接和平均联接)有更好的层次化聚类效果。此外,我们测试了在图像过分割的情况下,类间信息熵对于子分割区域的合并效果。第四,不同聚类结果之间的相似性度量——扩展传统的正则化互信息度量指标,使其应用于算法聚类结果与多个标准聚类结果进行比较的情况。在实际应用中,对于某一幅图像,人为标定的标准分割结果通常不是唯一的,不同的测试对象会根据主观经验得出不同粒度等级下的分割结果。为了体现分割结果的不确定性和多样性,充分利用人为标定的分割信息,聚类结果之间的相似性度量应扩展为可处理包含多幅标准分割图像的情况,因此我们提出了一种基于信息论的相似性度量指标,正则化联合互信息评估指标,可看作是正则互信息的扩展。通过在Berkeley图像分割数据库上的测试,我们验证了正则化联合互信息评估指标在量化评估分割算法上的合理性。