论文部分内容阅读
目的通过对现有聚类常用算法的研究,给出一种适用于大规模中文文本数据集聚类的算法DBTC(density-based text clustering).方法采用在DBSCAN算法基础上改进提出的DBTC算法,对中文文本数据集进行聚类.结果DBTC算法可以发现任意形状的簇,对中文文本聚类的准确率高达80%以上.结论经过分析和实验证明DBTC算法比基本的DBSCAN算法更适合于大规模数据集.