高阶异构数据聚类算法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:shires2006
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
聚类问题是模式分析领域最为基础的研究问题,其任务是将具有近似特性或关系密切的数据划分到同一个聚簇中。通过聚类分析可以帮助我们理解数据内部隐藏的知识。传统的聚类算法主要针对同构数据进行研究分析,采用单一的特征集合或同种类型的关系集合描述数据集的特性。然而最近随着IT技术尤其是Internet技术突飞猛进的发展,大量的异构数据集广泛出现,这些异构数据集的特性需要由多种特征集合或多种关系集合进行描述。为了有效利用异构信息,挖掘异构数据内部的聚簇结构,学术界提出了异构数据聚类分析方法,并吸引了广大科研人员的兴趣。本文的研究工作与创新之处主要包括以下几方面的内容:1.为了探测高阶异构数据内部隐藏的层次聚簇模式,针对星型高阶异构数据,提出了一种高阶层次联合聚类算法(high-order hierarchical co-clustering algorithm,HHCC)。HHCC算法利用变量相关性度量指标Goodman-Kruskal?衡量中心类型数据对象和每种非中心类型数据对象的相关性,分别将相关性较强的中心类型数据对象和非中心类型数据对象划分到不同的聚簇中。利用Goodman-Kruskal?指标评估聚类质量,Goodman-Kruskal?指标越大,聚类质量越高。利用局部迭代搜索方法优化Goodman-Kruskal?指标,在优化Goodman-Kruskal?指标的同时能够自动调整每个聚簇分裂的子聚簇数目。HHCC算法使用top-down的分裂原则,将每个聚簇分裂成使得Goodman-Kruskal?指标达到最大的子聚类,最终获得高阶异构数据的树状层次聚类结果。2.目前多数高阶异构数据联合聚类算法集中于无监督学习,然而在实际问题中可以获得少量样本先验信息。大量研究表明,在聚类过程中有效引入少量部分先验知识将有利于提高聚类结果的精度。另外,为了发现高阶异构数据集中未知的重叠聚簇结构,本文提出了一种高阶异构数据半监督模糊联合聚类算法(high-order heterogeneous data semi-supervised fuzzy co-clustering algorithm,SS-HHFC)。为了准确、客观地描述聚簇交叠部分数据对象的聚类结果,SS-HHFC算法引入模糊概念,利用隶属度描述数据属于某聚簇的程度。由于高阶联合聚类的目标是将相关性较强的异构数据对象划分到同一个聚簇中,SS-HHFC算法利用聚集度评估异构数据聚簇之间的相关性,利用聚集度衡量聚类结果的质量。高阶联合聚类建模为聚集度的最大化问题,并将成对约束先验信息融入到代价函数中。为了求解优化问题,推导出隶属度迭代更新公式,设计SS-HHFC算法的计算过程,并从理论和实验两方面验证了SS-HHFC算法的收敛性。3.异构数据中往往包含噪声和离群点数据,为了减弱噪声对聚类效果的影响以及探测离群点数据,本文基于非负矩阵分解的提出一种加权异构数据联合聚类算法(weighted nonnegative matrix factorization for heterogeneous data coclustering algorithm,WNMF-HCC)。WNMF-HCC算法利用数据对象之间的关联关系,将异构数据嵌入到低维空间。根据数据对目标函数的贡献,对每个异构数据对象自动赋予不同的权重,对噪声和离群点数据赋予较低的权重。利用权重不仅可以减弱噪声对聚类效果的不利影响,而且可以判断离群点数据。并从理论和实验两方面验证了WNMF-HCC算法的收敛性。4.多视角数据中往往含有噪声数据,影响聚类效果。为了提高聚类算法对噪声的鲁棒性,本文提出了一种基于可能性C-means的鲁棒多视角聚类算法(robust multi-view clustering algorithm based on possibilistic C-means,PCM-RMVC)。由于PCM-RMVC算法不再受隶属度之和为1的限制,噪声对所有聚簇的隶属度均较低,减弱了噪声数据对聚类精度的不利影响,对噪声具有较强的鲁棒性。为了综合利用每种视角的特征空间信息,PCM-RMVC算法最小化每个视角中数据对象与聚簇原型之间距离的加权组合。推导隶属度与视角权重的迭代优化规则,设计出PCM-RMVC算法的计算过程,并从理论和实验两方面验证了PCM-RMVC算法的收敛性。最后,总结全文的主要研究工作,并提出本文工作的不足和下一步的研究内容。
其他文献
现代汉语虚词的普遍运用,成为现代汉语诗歌形式区别于古典诗歌形式的重要特征,它直接参与并影响中国现代诗歌节奏的形成。首先,虚词带来节奏单元划分的变化,不同的划分方法背
期刊
测定了6个家鸡品种30个个体的线粒体D-环区539bp的碱基序列,并与GenBank中的红原鸡、灰原鸡、绿原鸡、黑尾原鸡及鹌鹑的相应序列作比较分析,构建了分子系统树。结果表明,原鸡属4
文章通过对独立学院转型发展的路径演化过程进行梳理,指出独立学院的转型发展具有在内外因共同作用下,以创新为内核,以"发展-调适-优化-再发展"为演化路径的内在逻辑理性。在
儿童青少年身体发育是反映其健康水平的重要标志之一,虽然我国儿童青少年身体发育水平不断提升,但近年来,随着营养过剩、体力活动不足、久坐时间过多等问题的出现,导致其超重
目的:Galectin-3是一种能与β-半乳糖苷残基结合的内源性凝集素,参与细胞黏附、凋亡、免疫反应等生物学活性。在甲状腺癌、乳癌中Galectin-3对肿瘤的浸润、转移等影响作用研
[目的]了解某区中学生自杀意念的流行现况,初步探讨其影响因素,为制定预防中学生自杀行为的干预措施提供理论依据。[方法]采用分层随机抽样的方法,抽取该区8所中学2193名中学
地下水资源是新疆淡水资源的重要组成部分,为解决对地下水的无序开采及超采问题,建立新疆南疆地下水监测井遥测系统。地理信息系统作为获取、存储、分析和管理地理空间数据的
水资源是人类生存和各项活动的基本物质,近年来由于水资源短缺而引发的各种问题,受到了国际社会的广泛关注。水资源与其他自然资源一样,具有一定的使用价值,但是却又受到量的
目的:调查痴呆患者家庭照顾者的病耻感水平并分析其影响因素,以期为医护人员制定降低照顾者病耻感的干预措施提供依据。方法:选取2017年12月~2018年3月在东营市某三级甲等医