论文部分内容阅读
针对卡方统计量(CHI)忽略低频词对文本分类的影响以及信息增益(IG)只考虑对整体的贡献,忽略对局部影响的问题,通过分析CHI和IG特征选择算法,提出融合CHI和IG,适用于情感文本分类的文本特征选择算法(CHI -IG).该算法在CHI和IG 2种特征选择算法中增加了权值,集合这2种特征选择算法的优点,降低了2种方法不足带来的影响.并在此基础上对情感词的特征值附加权值区别于非情感词.基于该算法并采用随机森林(Random Forest)和支持向量机(SVM)分类方法对情感文本进行分类实验.结果表明,该方