论文部分内容阅读
多类别文本分类是自然语言处理任务中的一项基础任务,文本分类算法效果的提升,也会使自然语言处理领域诸多其他任务的处理效果得到提升。目前在学术界诞生了种类众多、性质各异的文本分类算法,但由于这些算法各有各的优势与不足,在实际使用中往往需要使用多种算法进行某种形式的融合,进而实现优势互补,以满足工程中对于分类算法的需求。文本分类任务中,由于人工构建的分类体系往往受服务需求方与数据标注人员的主观因素影响较大,导致分类体系中的不同类别对于文本分类算法来说可分性参差不齐。在目前的单模型机器学习分类方法中,线性分类方法的训练和分类都极为快速,适合用于大规模文本数据的训练与分类,但分类效果不够理想;而神经网络类分类方法虽然训练代价较大,但分类效果比较理想。若将线性分类方法与非线性分类方法进行融合,让线性分类处理线性可分性较高的若干类别的分类,非线性分类处理线性可分性较差的若干类别的分类,预计将得到较好的分类精度和训练速度。基于以上背景,采用模型融合的方法提升分类器的整体性能是一个合理的选择。由此本文提出基于类别重组与模型融合的文本分类方法。本文主要工作如下:(1)设计实现了一种类别重组算法。类别重组算法将使用线性分类器进行分类时互相之间误分类率较高的若干类别合并为一个新的类别,而误分类率较低的若干类别保持不变。将上述思路应用于原始类别体系,得到重组后的新的类别体系,且新类别之间将是适合于进行线性分类的。本文在新类别体系下训练与测试本文使用到的线性分类器,得到了比在原始类别体系下所训练的模型更好的分类效果。(2)设计实现了一种分类模型融合方法。基于模型融合策略,将线性与非线性模型进行融合,线性分类算法负责类别重组后所得类别体系下的分类,而神经网络分类方法负责类别重组后所得新类别内部的分类。对于每一个重组得到的新类别,将对应一个非线性模型,并使用此非线性模型对新类别中的多个类进行分类。经过实验验证,此方法能够以接近于线性分类模型的训练代价下,得到比线性分类模型更好的分类效果,进而对文本分类模型整体性能做出了一定的改进。(3)设计实现了一个分类系统。结合上面工作成果,设计实现一个分类系统,在实际工程中初步得到应用。