论文部分内容阅读
针对KNN 文本分类时间效率低的缺点,提出一种结合文本信息量和聚类的文本裁剪算法.考虑到训练文本中存 在类别相关性弱的文本,计算每条文本包含的信息量并排序,对向量空间模型利用聚类删除噪声文本,结合文本的重要性 在各类别中筛选出代表文本构建新的样本空间,在新样本空间上进行分类.实验结果表明,该方法能合理有效地裁剪文本 集,提高分类效率.