论文部分内容阅读
在类和特征分布不均时,传统信息增益算法的分类性能急剧下降。针对此问题,提出一种改进的基于信息增益的文本特征选择方法。首先,降低了低频词对特征选择的影响。其次,使用离散度分析特征词在类间的文档频率,增加波动性大的特征词的权值。通过对比实验分析表明,选取的特征具有更好的分类性能,并且对于不平衡数据集表现也较好。