论文部分内容阅读
本文针对传统CHI特征选择算法存在的缺陷,引入了频度因子、类内分布均匀因子以及修正因子进行改进,兼顾词频因素以及数据集不平衡情况,筛选出在指定类中出现频率大且分布均匀的特征词项。实验结果表明,结合SVM方法,相比于传统卡方统计特征提取的分类效果,改进后卡方统计方法提取的特征值能够有效地提高文本分类的准确度,证明了改进后卡方统计算法的可行性。