论文部分内容阅读
本文在层次分类的环境下,首先实验比较了文档频率、信息增益、期望交叉熵、x^2统计、文本证据权、互信息6种常用的特征选择算法,结果是互信息的分类效果最差。然后对此作了分析,并在此基础上提出了一种改进型互信息算法。实验结果表明,改进型互信息算法要好于其他算法。单字词的去除使分类效果得到提高,说明词特征更能够比较完整地表达语义信息。