论文部分内容阅读
在数据挖掘领域,聚类算法因其具有简单、灵活、高效等优势,被广泛用于各种数据挖掘任务中。但当聚类数据不足时,传统聚类算法很难取得较好的聚类结果。随着机器学习技术的发展,迁移学习方法已被成功用于解决数据不足导致的训练效果差的问题。该方法通过从训练效果好的模型提取信息,应用到目标数据中,以提升目标数据的训练效果。借鉴迁移学习的思想,迁移聚类方法被提出用于解决相关数据聚类的问题。迁移聚类就是将源域数据的知识加入到目标域数据的聚类过程中,以获得目标域数据的更好分割。围绕迁移聚类,本文对现有的集中式聚类和分布式协同聚类方法进行改进,以提升相关算法的聚类效果。主要的创新性工作和成果如下。1.改进集中式聚类方法,提出面向高维数据的基于迁移学习的属性熵加权模糊聚类算法(TEWFCM)和面向非线性数据的基于迁移学习的核模糊聚类算法(TKFCM)。应用迁移学习技术,将源域数据的类中心及维度权重迁移到目标域数据中,辅助目标域数据的聚类。实验测试结果表明迁移技术可以有效地提升属性熵加权模糊聚类算法(EWFCM)和核模糊聚类算法(KFCM)的聚类效果。2.改进分布式协同聚类方法,提出基于迁移学习的分布式协同模糊c均值聚类算法(TCFCM)和基于迁移学习的属性熵加权分布式协同聚类算法(W-TCFCM)。在传统的分布式协同聚类算法中增加网络相邻节点间的迁移学习项,以加速聚类过程的收敛和提升聚类效果。实验结果显示相比传统的分布式协同模糊聚类算法Soft-DKM和CDFCM,改进算法能够获得更高的聚类准确度和更少的聚类迭代次数。3.进一步改进基于迁移学习的分布式协同聚类算法以增强算法的普适性。在上述基于迁移学习的分布式协同聚类算法中,一个重要的超参数就是学习因子,它是一个全局量,表示了网络相邻节点间学习的程度,其取值通常需要人工预先设定。实验结果发现算法聚类效果受学习因子的取值影响很大,这将大大降低算法的普适性。为此,本文设计了学习因子自动调整方法,并提出基于迁移学习自调整的分布式协同模糊c均值聚类算法(A-TCFCM)和基于迁移学习自调整的分布式协同属性熵加权聚类算法(AW-TCFCM)。这两种算法将全局学习因子改为在每对相邻节点间设定学习因子,并根据前后两次迭代中邻居节点群中心的变化趋势以及在同一次迭代中相邻节点间的中心差异,实现相邻节点对的学习因子的调整。实验结果表明改进算法能够获得更加稳定的聚类结果,受学习因子初始值的影响较小。