论文部分内容阅读
聚类分析旨在按照特定准则,将数据集中的数据点划分为若干有意义的子集,从而挖掘出数据背后的内在结构信息。聚类分析属于无监督学习方法,在机器学习、数据挖掘和信息处理等领域得到了广泛的应用和快速的发展。在诸多聚类算法中,模糊C-Means(Fuzzy C-Means,简称FCM)是一种极具竞争力的聚类算法,它以C-Means聚类为基础,通过引入模糊隶属度将“硬”聚类推广为“软”聚类,从而将聚类问题转化为对数据点的模糊划分问题。尽管FCM受到了大量地关注和研究,但仍存在问题有待研究。例如,i)在传统FCM的目标函数中并没有顾及到数据集中可能存在的类不平衡问题,由此FCM不适合于对非平衡数据集进行聚类;ii)FCM属于无监督学习方法,没有利用可获得的部分先验(标记)信息,这不符合当前已兴起的半监督学习潮流。因此,如何将传统FCM拓展为更普适的形式是一个值得研究的问题。为了迎合更广泛的应用场景,本文对传统FCM在类不平衡情形和半监督环境下的拓展问题进行了研究。主要研究成果如下:1)提出了一种平衡化FCM聚类算法(Balanced FCM,简称BFCM算法)。针对FCM在聚类非平衡数据集时会产生“均匀效应”的缺点,本文先分析目标函数及成因,再对模糊隶属度矩阵施加正交惩罚正项以平衡“大”类与“小”类,由此得到了对非平衡数据集更有效的聚类算法(即BFCM)。2)提出了一种半监督平衡化FCM聚类算法(Semi-Supervised Balanced FCM,简称SBFCM算法)。BFCM属于无监督学习方法,针对它无法利用部分先验(标记)信息的缺点,本文在FCM的目标准则函数中引入半监督机制,从而可利用少量监督信息获得更好聚类效果。由此,BFCM将FCM拓展至半监督学习环境。