论文部分内容阅读
传统聚类方法只能对一个任务中的数据进行划分。但是在很多情况下,单一任务中的数据是有限的,这不足以获得很好的聚类性能。在现实生活中,很多任务是相关的,多任务聚类通过在任务之间迁移相关知识来提高所有任务的聚类性能。利用类标签的监督多任务学习方法已经研究得比较成熟,而不利用类标签的多任务聚类方法还有很多问题亟待研究。多任务聚类要处理的数据分为三种类型:同域数据、多域数据和多视角数据。本文分别针对这三种数据设计了多任务聚类方法。(1)同域数据的多任务聚类:同域数据指多个任务中的数据来自于同一领域。针对现有多任务布雷格曼聚类方法存在的缺陷,本文提出了三个改进方法。①智能多任务布雷格曼聚类:该方法引入损失函数作为判断条件,从而解决了多任务布雷格曼聚类带来的质心偏移问题。②多任务核聚类:该方法将数据映射到再生核希尔伯特空间,从而解决了多任务布雷格曼聚类不能很好聚类非线性可分数据的问题,但它依然会导致质心偏移。③智能多任务核聚类:该方法通过引入损失函数并将数据映射到再生核希尔伯特空间,从而既解决了质心偏移问题,又解决了非线性可分数据的聚类问题。(2)多域数据的多任务聚类:多域数据指多个任务中的数据来自于不同领域。首先,针对现有部分相关多任务聚类方法过少且具有限制条件的问题,本文提出了两个泛化能力更强的方法:①自适应多任务聚类只在任务之间相关簇构建的子任务中,通过共享最近邻相似度迁移实例知识;②多任务模型相关性学习聚类通过学习任务之间簇线性回归模型参数的相关性来迁移模型参数知识。其次,针对现有多任务聚类方法只能迁移特征、实例和模型参数中的一种知识,而不能充分利用任务间相关知识的问题,本文提出了三个同时迁移特征和实例知识的方法:①基于特征和实例迁移的多任务聚类适用于完全相关任务;②流形正则化编码多任务聚类适用于部分相关任务;③基于特征和实例迁移的加权多任务聚类对完全相关任务和部分相关任务都很适用。(3)多视角数据的多任务聚类:多视角数据指每个任务中的数据包含来自不同视角的特征。目前还没有针对此类问题的方法被提出。本文首先提出了一个基于联合聚类的多任务多视角聚类框架,它包含三部分:单任务单视角聚类、多视角关系学习和多任务关系学习。然后本文基于这一框架提出了两个方法:①基于二分图的多任务多视角聚类采用二分图联合聚类,它只能处理带有非负特征的数据;②基于半非负矩阵三分解的多任务多视角聚类采用半非负矩阵三分解联合聚类,它也能处理带有负数特征的数据。