论文部分内容阅读
无监督学习是机器学习领域重要的研究方向之一,其应用非常的广泛。如数据聚类、复杂网络的主干网提取等。本文以投票集成聚类和复杂网络图聚类为切入点进行研究,取得的成绩包括:(1)针对数据的集成聚类问题,提出了基于扩展分类器系统的投票集成聚类方法。基于扩展分类器系统的投票集成聚类方法,首先利用扩展分类器系统在不同聚类个数的情况下生成一个聚类结果集合;然后引入分裂策略从所有候选值中确定聚类个数;最后,采用基于多数投票的一致性方法获得最终聚类结果。在人工数据和实际数据上的实验结果均表明了所提出方法的有效性。(2)在基于扩展分类器系统的投票集成方法的基础上,提出了基于扩展分类器系统的统一聚类集成框架。该框架包括了更多适用的融合准则、共识函数和自适应集成等内容。具体来说,在处理一个聚类任务的时候,所提出的方法首先会执行学习分类器系统来生成几个基聚类结果。为了使这些结果之间存在较大的多样性,本文对聚类数据使用不同的初始化,比如使用不同的聚类数目等。得到这些基聚类结果之后,我们提出的方法会使用相应的策略来生成最终的聚类结果。在人工数据和实际数据上的实验结果表明了所提框架的有效性。(3)针对复杂网络的图聚类问题,提出了一种基于不完全信息的无监督学习的复杂网络主干网提取方法。主干网提取的目的主要是压缩复杂网络的边和点数量,以尽量精简的子网络保留原网络的重要特征(如拓扑结构、点重要性特征等),从而帮助人们以更简单的形式来理解网络系统。本文以零模型为参考优化边过滤条件,并设计一种局部搜索模型。在四个真实网络上的实验结果表明本文所提出方法不仅大幅度减少了主干网中的离群点、而且更好地保留了原网络的各种特征、且比同类方法更加高效。