论文部分内容阅读
随着高度信息化时代的到来,对于作为网络上信息传输主要载体的文本信息的组织、管理不仅可以对文本信息进行分门别类的存储,也可以使用户在检索有效信息时更加高效便捷。为了满足上述需求,我们要对现有文本分类算法进行总结,分析其适用的场景,并在这些算法模型的基础上进行优化,使得优化的分类器模型可以达到提升现存文本分类器精度的目的。首先,通过对文本分类的流程进行系统化的梳理,介绍了文本分类的预处理、特征选择算法、相似度计算、文本表示、分类器算法等。并且对文本分类领域常用的几种分类器模型:朴素贝叶斯、支持向量机、K最近邻和神经网络等进行了详细的介绍。介绍了分类器的性能评价指标。集成学习作为目前最为火爆的机器学习方法之一,通过构建多个分类性能较好的基分类器对训练数据集进行训练,可以提高分类器的泛化性能和分类精度,常被用于分类预测、回归问题、特征选择、异常点检测中。集成学习根据基分类器间的依赖关系可分为序列集成方法和并行集成方法两种。本文对并行集成方法bagging和序列集成方法boosting的理论基础进行了系统的研究,并对bagging的扩展算法“随机森林”进行了详细的介绍,针对随机森林算法中存在的不足之处,本文创新性的对随机森林算法进行了优化,提出了根据out-of-bag错误率与随机森林中决策树分类效果的关系,为随机森林赋予权重的算法:OOB-WRF。另外,本文还对Boosting算法变形中最为流行的一种AdaBoost算法原理进行详细的介绍。并且提出了将贝叶斯分类器作为基分类器的提升算法Ada-NB,阐述了本算法在文本分类中的优势。对于贝叶斯分类器在各个特征项之间无法相互独立时所产生的分类偏差,提出了修正类别词频的贝叶斯文本分类算法RCF-NB。最后,再结合自适应提升算法提出修正类别词频的Ada-RCFNB算法。为了验证本文提出的三个优化算法(OOB-WRF、Ada-NB、Ada-RCFNB)在英文文本分类中的有效性,本文中选用英文Newsgroups语料集进行实验验证。实验结果表明,OOB-WRF算法分类精度、F1值优于传统随机森林算法。对比Na?ve Bayes、Ada-NB、Ada-RCFNB三种分类器实验结果表明:Ada-NB算法可以很好的提升贝叶斯分类器的精度,Ada-RCFNB算法分类准确性优于Ada-NB,能够进一步提升贝叶斯分类器的精度。