论文部分内容阅读
随着文本数据的急剧增长,文本聚类方法已成为大家关注的热点。文本数据常用文档-词矩阵表示,基于这种表示方法大多数传统的聚类算法采用单向聚类方法,即要么只是对文档进行聚类,要么只是对词进行聚类,忽略了文档与词之间的相互关系。基于信息论的协同聚类算法ITCC(Information Theoretic Co-clustering algorithm)将文档-词矩阵看作一个联合概率分布,以最小化初始变量和聚类后的变量间的互信息损失为目标函数,同时对文档和词进行聚类。这种方法从信息论的角度捕获了文档和词之间的自然关系,对高维稀疏的文本数据起到很好的聚类效果。本文在分析了协同聚类算法的优缺点的基础上,提出了一些改进方案,并进行了大量的实验分析,完成了以下研究工作:(1)本文提出了层次协同聚类算法HITCC(Hierarchical Information Theoretic Co-clustering),该算法结合了分裂的层次聚类的思想,将每一层的节点分裂都看作一次协同聚类过程,而且在节点分裂时基于父亲节点的协同聚类结果对文档和词同时分裂,然后使用互信息或者卡方检验的方法作为停止条件控制树的增长。此方法不仅能发现存在子空间的簇,而且可以显示簇与簇之间的层次关系,另外也避免了协同聚类算法确定行簇和列簇数目的问题。通过实验证明,HITCC算法可以获得比平面的协同聚类算法更好的聚类效果,而且与当前经典的文本层次聚类算法的效果相当,甚至更好。(2)本文基于HITCC算法又提出了其改进算法——基于模型选择的层次式聚类算法MS-HITCC(Model Selection-HITCC)。该算法在层次树的每一层只是按照协同聚类结果对文档进行分裂,保留父亲节点所有的词。在进入下一层协同聚类前,使用特征选择的方法选择一部分词进行聚类。这样的操作可以在分裂过程中保留重要词的信息,有利于聚类过程的进行。基于此操作,MS-HITCC算法将多项式混合模型应用于层次式协同聚类方法中,并且使用AIC或者BIC的方法进行模型选择,从而避免设置任何参数值,对数据更有普遍适用性。