论文部分内容阅读
针对基于文档频率的特征选择算法易于忽略词频和类别关系的问题,提出一种基于差异度量和互信息的文本特征选择算法。融合归一化差异度量和互信息概念,引入词频信息和特征分布系数,弥补归一化差异度量算法在特征选择过程中忽略词频和特征词与类别之间关系的不足,并增加特征分布系数对其进一步优化。实验结果表明,在不同特征维度下,该算法能够有效提高文本分类准确率。