论文部分内容阅读
聚类是数据挖掘中无监督学习的一项基础研究内容,它能够揭示无标签数据的内在联系。在实际应用中存在许多关于类尺寸的先验信息,然而传统聚类算法并不能很好地解决这种带有尺寸约束的半监督聚类问题。现有尺寸约束聚类方法大多关注于软约束,对于硬约束关注较少,且现有方法的准确度、时间复杂度等仍有相当大的改进空间。同时研究人员对于尺寸约束聚类最优化的建模方式也存在一定程度上的忽视。本文针对上述主要问题,基于整数规划(Integer Linear Programming,ILP),研究了硬尺寸约束聚类的两种新方法,具体研究内容如下:第一,本文提出平衡尺寸约束聚类方法。平衡尺寸约束聚类指划分得到的类尺寸应当尽可能的等大(±1)。本文通过结合ILP,优化均方误差(Mean Squared Error,MSE)来最优化建模平衡尺寸约束聚类问题。针对所提模型,我们提出一种迭代的方法来求解,每次迭代主要包含两个步骤:分配步骤和更新步骤。分配步骤将数据均衡的分配到每个类,该平均分配问题表现为ILP形式,我们证明了该ILP的约束矩阵是一个全幺模矩阵。因此我们可以将之松弛为线性规划(Linear Programming,LP)问题从而可以使用单纯形法进行快速求解。在更新步骤中,我们将每个类的中心更新为当前类内数据点的平均。我们在随机数据集和UCI公共数据集上开展了多组实验,结果表明本文所提平衡尺寸约束聚类方法平均时间复杂度为(8)9)1.65)-(8)9)1.70),其中8)表示迭代次数,9)表示数据点个数。同现有平衡尺寸聚类方法相比,所提方法可以高效地产生更准确的聚类结果。第二,在本文第一点工作的基础上,将平衡尺寸约束聚类拓展为任意尺寸约束聚类,即每个类的尺寸可以由用户指定。给定一个无序的尺寸约束集合,该问题的关键在于如何使类在聚类过程中自动地选择最优的尺寸。我们同样将该问题建模为一个优化MSE的ILP问题。我们使用相似的迭代策略求解,在每次迭代中,同样包含一个分配步骤和一个更新步骤。在分配步骤中,该问题仍然被表示为ILP问题,我们将用来表示数据点分配情况的变量命名为数据点分配决策变量(Observation Partition Decision Variables,OPDVs),我们还引入了类尺寸决策变量(Cluster Size Decision Variables,CSDVs)。我们证明了OPDVs的约束矩阵是一个全幺模矩阵,所以我们只需要保留CSDVs上的整数约束,从而将该ILP问题松弛为混合整数规划(Mixed Integer Linear Programming,MILP)问题,极大降低了求解复杂度。此外,更新步骤与平衡尺寸聚类中的更新步骤相同。UCI数据集上的实验表明了(1)用所提方法增加尺寸约束可以提升聚类性能;(2)与现有尺寸约束聚类算法相比,所提方法能更高效地产生更好的聚类结果。最后为了进一步验证所提方法在实际应用场景中的有效性,基于本文所提出的尺寸约束聚类模型,我们设计了相应的原型系统。通过原型系统,我们可以发现,所提算法不仅具有理论上的进步意义,而且具有较好的实际应用价值。