论文部分内容阅读
为提高文本向量对文本概念的逼近程度,通过将具有相同语法语义特征的词进行聚类,提取概念簇,利用空间变换将文本向量由词空间变换到概念簇空间上来表达文本。实验比较了基于TF-IDF、IG、TF-IDF-IG、LSA以及它们结合概念簇后对文本分类的效果,证明了基于概念簇的文本向量构建方法能提高文本向量对文本概念逼近的准确程度,同时也提高了不同类型文本之间的区分度。