论文部分内容阅读
在数据分析中,聚类分析的目的是发现相似数据的集合。其中,划分迁移类方法(如k-means)是一个基本的方法。对于类别型数据,由于它的距离度量不同于数值型数据,因此存在一些特殊的方法。本文提出一种新的用于类别型数据的划分迁移类方法,在保持高效的同时,能比现有方法获得更好的聚类结果。 对于专门用于类别型数据的聚类方法k-modes和常用于数值型数据的k-means,本文比较它们的目标函数的不同特点。对于k-means,本文提出它在用于类别型数据时的合理性,和高效运算的方法。实验证实:k-means的目标函数比k-modes的目标函数的聚类结果更好。 本文提出的新的聚类方法是:使用Transfer算法优化一个合理的目标函数(聚类内分散度)。该方法能处理任意距离,因此它的通用性优于k-means。同时,Transfer算法的时间复杂度和k-modes、k-means相当。通过实验得出,本文方法的聚类结果比k-modes类方法更准确。 在本文聚类方法的基础上,研究了类别型数据的距离。通过测试多种距离在真实数据集上的聚类表现,分析距离的选取对聚类的影响,和实践中距离的选择。 最后,研究了针对本文聚类方法的初始化方法。借鉴k-means的初始化方法,应用到本文使用的目标函数中。对于初始化时如何把数据点分配到初始聚类的问题,本文提出一个新的分配方法,它能更好地优化目标函数。