论文部分内容阅读
特征选择是文本分类技术的一项关键技术,特征选择的质量决定了分类的性能。在分析现有特征选择方法的基础上,引入类词频概念,建立"文档—类—词"立方体。实验表明,这样的立方体模型能更全面、更客观刻画特征的本质,兼顾了特征的类内分散度更平均、类间集中度更集中。结合类词频选择的特征提高了文本分类能力。