论文部分内容阅读
训练集的分布对文本分类质量有重要影响。该文对两类文本分类中的数据集偏斜问题进行研究,提出一种基于反馈信息的特征权重调整方法,该方法综合考虑正确分类和错误分类的文本数来调整词的权重,以降低训练过程中对小类别的不公平待遇。实验结果表明,该方法有效地解决了数据集偏斜对文本分类的影响,分类质量得到提高。