【摘 要】
:
联合聚类的目标是对二维列联表产生有意义的划分,可以根据行列间的对偶性同时对列联表的行和列进行分组。与传统的单向聚类相比,联合聚类可以有效识别子空间并揭示行列之间的
论文部分内容阅读
联合聚类的目标是对二维列联表产生有意义的划分,可以根据行列间的对偶性同时对列联表的行和列进行分组。与传统的单向聚类相比,联合聚类可以有效识别子空间并揭示行列之间的隐含关系,已成为解决高维稀疏数据聚类问题的最重要方法之一。随着数据科学的飞速发展,数据集形式越来越丰富,传统的联合聚类方法在处理如重叠数据、高阶异构数据时有局限性,如何更好地联合聚类此类数据成为具有意义的研究问题。模块度是一种常用的衡量社区划分质量的标准,同时也是图聚类方法中常见的质量评价标准。通过对现有联合聚类及模块度相关工作的总结分析,主要在基于模块度的可重叠联合聚类和分层高阶联合聚类两个方面展开了深入的研究,并取得了如下研究成果:第一,针对传统的联合聚类方法无法挖掘重叠数据以及离群点等局限,提出一种最大化模块度的可重叠联合聚类方法。该方法允许行、列簇中的数据重叠,并能识别数据中的离群点。首先设计统一框架,在基于模块度的目标函数中加入使数据可重叠与非穷尽的约束,其中控制重叠程度和非穷尽程度的参数非常易于理解;然后通过迭代的行列交替优化过程使目标函数中的模块度最大化,高效地获得可重叠且非穷尽的联合聚类结果。第二,传统联合聚类方法对包含多个特征空间与多种类型数据对象的高阶异构数据聚类时则存在一定局限,并且多数现有的联合聚类方法通常产生预定簇数的平面划分而无法挖掘数据中隐含的层次结构,针对此,提出一种最大化模块度的分层高阶联合聚类算法。该方法融合高阶异构数据中多种特征空间的信息,通过执行高效的迭代算法优化基于模块度的目标函数,自顶向下分裂式执行高阶联合聚类,自动确定簇的个数并得到树状的层次高阶联合聚类结果。最后,在各类人工数据集与真实数据集上设计实验进行验证,实验表明本文提出的两种方法均优于现有的同类联合聚类方法。
其他文献
太赫兹(Terahertz,THz)波是一种频率介于微波和远红外波之间的电磁波,频率范围为0.1THz-10THz。近几年THz技术从基础研究到实际应用都得到飞速发展,并在传感、生物医学成像、
随着能源消耗的日益增加,对于清洁能源的开发和利用受到了世界各国政府的高度重视,其中太阳能光伏发电有着光明的发展前景。光伏发电系统与电网需要以逆变器作为接口设备,因
教师领导力是指教师在教育教学工作中,通过个人的知识,思想与行为对学生施以的综合影响力。在课堂内外,教师通过个人的领导行为促进学生知识的习得和能力的提高。在这个过程
随着网络技术、GPS定位技术以及移动网络设备的快速发展,网络信息量呈爆炸式增长,人们在海量的数据中找到自己感兴趣的信息变得越来越困难,推荐算法有效解决了这一问题,并广
过渡金属氧化物具有化学组成复杂、晶体结构特殊、阳离子价态多样、在自然界储量丰富等特点,近年来在锂离子电池、电催化、燃料电池等能源转换与存储领域成为新兴的研究热点
场发射显示器是最具潜力能提供优质图像和综合性能的平板显示器之一。在场发射显示器的研究过程中,对阴极研究的热度一直不减。其中,碳纳米材料及其复合薄膜被认为是一种极具
视网膜血管状态与包括眼睛病变在内的许多身体疾病之间存在着密切的关联性,对眼底视网膜图像进行智能检测和分析,获取视网膜血管病变和病灶信息,对临床医学具有重要的研究意
肇213区块葡萄花油层属于裂缝性低渗透油藏,投入开发以来,存在注水受效不均、低产低效井比例大及欠注井逐年增多等问题,目前已进入中高含水开采阶段,地下流体分布日趋复杂,剩
吡啶醛类席夫碱通常具有生物活性。吡啶-4-甲醛席夫碱中吡啶环上N原子具有良好的配位能力,可以与稀土元素、过渡金属配位合成具有特定功能和结构新颖的化合物。今天,人们越来
金属有机框架(metal-organic frameworks,MOFs)化合物在离子荧光识别方面具有高灵敏性,快速响应和重复利用等优点,被认为是一类有前景的荧光传感材料。合理的设计和合成具有高