论文部分内容阅读
联合聚类是新近的无监督的数据分析的范例,但是它变得日益流行是由于它发现隐藏的局部模式的潜力,和通常的无监督的运算法则比如说k-均值发现聚类不同。联合聚类的广泛部署需要面临数据转换、聚类的初始化、可扩展性等大量的实践的挑战。因此,这篇论文聚焦于使发展中的联合聚类方法更加成熟,并且它的最终目标是促使联合聚类作为各种各样的实际应用中不可缺少的无监督的分析工具。为了完成这样的目标,我们提出了三项明确的任务:(1)发展联合聚类运算法则使它具有功能性、适应性和扩展性;(2)联合聚类运算法则的扩展适应专门的应用需求;(3)联合聚类运算法则的应用广泛地存在于实际应用领域显现的难题中。就联合聚类的运算法则来说,我们提出了改进的贝叶斯联合聚类算法。它允许在行和列中有混合的类,也就是说聚类的对象既属于一个类,也属于另一个类。这个算法是用指数族的概率分布理论去发现联合聚类生成的类。同时,为了自动估计行和列的类数,文中还提出了基于贝叶斯信息准则的类别数估计算法。关于联合聚类的扩展,我们为一般的联合聚类的方法提出了基于逐步对应分析法的快速联合聚类的框架。它不需要把整个数据矩阵都放进内存里,这对于高维海量数据是至关重要的。这个框架可以使用k-均值、信息论和贝叶斯等不同的联合聚类运算法则。它在执行效率上优于上述运算法则,而与其它方法有差不多的正确率。关于联合聚类的应用,我们扩展了贝叶斯联合聚类的功能来适应特别应用的需求。通过基于逐步对应分析法的贝叶斯联合聚类方法可以从高维海量数据中发现一致的联合聚类,它的目的是对行和列进行选择,然后通过贝叶斯联合聚类算法来同时聚类行和列。最后,我们阐述了该算法框架应用于各种各样仿真的和真实的数据得出的结果。总之,我们介绍了联合聚类算法能发现隐藏的有用的信息,提出了算法的扩展来适应专门的需求,并且将它们应用于广阔的实践领域。