聚类分析中的相似性度量及其应用研究

被引量 : 202次 | 上传用户:painangel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在机器学习研究中,聚类作为一种无监督学习方式,得到了来自统计学、计算机科学等领域研究者的广泛关注,它不但是数据挖掘的重要组成部分,也是模式识别领域中备受关注的基础问题。在聚类分析中,数据元素是按照相互之间的相似性进行分类的。聚类的目标就是最大化同类数据元素之间相似性的同时,最大化不同类数据元素之间的差异性。并且,由于聚类的无监督特性,对于聚类结果合理性的判断也是需要探讨的课题。综合来看,聚类分析涉及到三类相似性度量,即数据对象之间的相似性、类对象之间的相似性以及不同聚类结果之间的相似性。因此,采用聚类分析方法来完成图像处理任务时,相似性度量是其中的关键问题。本文首先对聚类分析的概念、处理过程、算法分类、相似性度量问题以及聚类在图像处理中的应用作了简要概述。然后本文以信息论中的经典理论为依据,从信息的角度分别对聚类分析中三类相似性度量问题进行了探讨,并针对图像处理中的几类问题,即图像聚类、轮廓编组、图像过分割的处理以及图像分割的评估,验证了所提出方法的合理性和有效性。本文的主要创新点简要概括为:第一,数据对象之间的相似性度量之一——采用Bregman散度处理复杂数据对象的相似性度量。在对图像数据进行相似性度量时,需要同时考虑两方面的问题,即如何对图像数据进行表示,以及采用何种度量方法评价两个图像数据对象之间的相似程度。本文提出在信息瓶颈理论框架下,将“词袋”模型的图像表示与Bregman散度度量相结合,实现了更具有语义信息的图像内容聚类。该方法概括来说有以下三个特点:采用“词袋”模型的图像表示可以利用多种先进的特征提取算法(如各种兴趣点检测技术)捕捉到图像中更丰富的内容信息,并产生基于视觉单词的特征分布:根据信息瓶颈理论,图像聚类的目标是使得聚类后图像变量与特征变量之间的互信息损失量最小;采用Bregman散度聚类算法最小化互信息损失量,算法步骤与k-means相似,且Bregman算法中的KL距离对应着k-means算法中的欧氏距离。第二,数据对象之间的相似度量之二——利用数据对象之间的多元相似性关系提高聚类算法的抗干扰能力。对于用聚类方法来进行轮廓编组,我们提出在基于信息的聚类方法的框架下,通过多特征编组线索来计算数据对象之间的“集合相似度”,而不再限于二元相似性度量值,得到的度量量值也称为多特征相似度或多元相似度。然后,我们将多元相似度值作为输入,用信息聚类的方法来对边缘特征进行编组。实验结果表明,相对于二元相似度,基于多元相似度的轮廓编组质量在相同误差或干扰条件下(如存在特征描述误差及背景噪声数据)有明显的提高。第三,类对象之间的相似度量——提出将信息学习理论中定义的信息势和Renyi’‘交叉”熵用于聚类中子类间的相似性度量。对于一些容易产生过分割的算法,我们可在初始分割的基础上,根据类间信息熵的大小,采用聚合迭代的方法得到层次化的聚类结构。实验结果显示,在几种具有代表性的人造数据集上基于信息熵的类间距离度量方法比三种传统度量方法(单联接、完全联接和平均联接)有更好的层次化聚类效果。此外,我们测试了在图像过分割的情况下,类间信息熵对于子分割区域的合并效果。第四,不同聚类结果之间的相似性度量——扩展传统的正则化互信息度量指标,使其应用于算法聚类结果与多个标准聚类结果进行比较的情况。在实际应用中,对于某一幅图像,人为标定的标准分割结果通常不是唯一的,不同的测试对象会根据主观经验得出不同粒度等级下的分割结果。为了体现分割结果的不确定性和多样性,充分利用人为标定的分割信息,聚类结果之间的相似性度量应扩展为可处理包含多幅标准分割图像的情况,因此我们提出了一种基于信息论的相似性度量指标,正则化联合互信息评估指标,可看作是正则互信息的扩展。通过在Berkeley图像分割数据库上的测试,我们验证了正则化联合互信息评估指标在量化评估分割算法上的合理性。
其他文献
随着经济的全球化和信息化,我国产业结构呈现出由“工业型经济”向“服务型经济”的重大转变,在服务业快速增长的情况下,使我国经济增长方式由“粗放型”向“集约型”转变,服
在现代城市住宅商品化的今天,人们对居住空间的需求不仅仅满足于有一套能够安身落脚的住所,而是在此基础上,去选购自己喜欢向往的住宅,当然,对住宅的品质也有了更高的要求。
在全球经济一体化进程越来越迅速的背景下,为了能够充分发挥地区的相对优势,提高资源利用率,降低产品成本,对原材料、半成品、产成品等生产和生活物资在全球范围内的流通速度
本文运用分类法、描写法和文化语言学研究法,从类别、结构、特征和文化内涵等方面对与马相关的熟语进行了的研究。引论部分主要描述了论文题目说明、与马相关的熟语研究概况
21世纪最缺乏的资源就是人才,21世纪的企业要想在日新月异、竞争残酷的商海里稳健行驶需要的是人才,21世纪的房地产行业要想站稳脚跟,更上层楼的发展更是离不开人才。人才并
随着网络基础设施不断完善,物流四通八达发展,第三方付款方式及诚信制度的不断建立及成熟,使网络经济发展迅速,网购及网络营销已成为一种工作、生活及消费方式及习惯。如何巩
在我国全面推进依法治国、依法行政的大背景下,公民维权、行政监察以及司法监督力量日益增强,这对税收工作提出了新的挑战,税务机关及其工作人员的执法工作风险逐渐加大,所以
为促进和谐社会的稳定发展,拓展江西省和谐社会的新局面,提高和谐校园的融洽度;为提高江西省高校体育弱势学生群体积极参与身体锻炼的自我意识、提高生活质量和身心健康水平,
医疗器械是人类发展中不可或缺的产品,产品质量的高低直接关系人类的健康,尤其是对于中国的医疗器械生产企业来说,面临国外产品的冲击与同行业产品的竞争,要想提高市场占有率
新疆生产建设兵团是新疆稳定和发展的重要力量,肩负着屯垦戍边和稳疆兴疆的重任。新疆安全形势的变化、农垦经济增长的有限性和新疆地理环境的特殊性,要求兵团实现使命转变和