论文部分内容阅读
提出了一种geography markup language(GML)文档结构聚类新算法Clu-GML,与其它相关算法不同,该算法在凝聚的层次聚类中引入代表树的计算,通过计算最大频繁Induced子树得到簇的代表树,通过对代表树的比较发现新的簇,并更新新簇的代表树来完成聚类,不仅减少了聚类的时间开销,而且为每个簇形成聚类描述.实验结果表明算法Clu-GML是有效的,且性能优于其它同类算法.