论文部分内容阅读
基于Kullback—Leibler Distance(KLD)的文本分类作为一种新的分类方法在对大规模文本和高维特征向量进行分类时表现出较高的分类精度,超出了基于相似度量的TFIDF方法。对KLD文本分类方法进行研究,利用信息增益方法进行特征提取,将预定义参数ε引入KLD公式得到基于ε-KLD的文本分类方法。结果表明该方法简化了类和文档的特征向量的计算,并取得了和KLD相当的分类精度,其总体性能超过了KLDA-法。