论文部分内容阅读
为了提高大规模半结构化文档集的聚类质量,提出了一种新的XML文档聚类方法.从XML文档中提取层次路径序列,以此为依据将XML文档表示为VSM中的向量,将欧氏空间对应于粒子群模型的问题空间,采用粒子群聚类方法进行文档聚类.为了加速算法的收敛性,在算法的后续部分采用C-means进行快速局部调优,提出两阶段混合聚类方法,优点是能够跳出局部极值,搜寻整个问题空间的同时又保证了合理的时间.实验结果表明提出的方法具有较高的聚类准确性和较好的收敛程度.