论文部分内容阅读
文本分类是数据挖掘领域中重要分支之一,其任务是对未知类别的文档进行自动处理,判别它们所属于的预定义类别集合中的类别。随着各种电子形式的文档的数量以指数级的速度增长,有效的信息检索和过滤等应用变得越来越重要和困难。文本分类便是一个有效的解决办法,它已成为一项很有实用价值的技术。 本文对文本分类中所涉及的特征选择和分类算法进行了论述,并通过实验的方法进行了深入的研究。 首先,将传统的特征权重函数TFIDF应用于特征选择,给出了一种新的基于TFIDF的特征选择方法TDF。采用kNN算法和Naive Bayes算法对新的特征选择方法的性能作了测试。实验结果表明提出的TDF方法具有较好的特征选择效果,能够有效地提高分类精度。 其次,类别信息对于分类有着及其重要的作用。在TFIDF算法中引入类频率因子,给出TFIDFICF分类算法,实验证明类别信息的加入可以有效地改善分类性能,提高分类精度。 再次,基于用未标识文本来扩充训练集的思想,给出了迭代TFIDFICF算法ITFIDFICF。实验结果表明,该算法结合已标识文本,利用未标识文本增量训练分类器,能够通过迭代训练出较高精度的分类器。 最后,改进协同分类算法COT,给出基于TFIDFICF和NB的协同分类算法ICOT。算法通过两种分类器的协同训练利用未标记文档来优化分类器,具有较高的分类精度。