论文部分内容阅读
政府公文智能分类技术在提高政务办公效率方面有着极大的的实际应用意义,是政府政务智能化需要突破的重点方向之一。本文的选题来自于政府智能公文项目,首次将以深度学习为主的自然语言处理技术应用到政府公文分类领域中,以提高模型准确率为目标,为实际政府公文智能处理应用系统提供符合应用标准的算法方案。政府公文任务是一个典型的多标签文本分类任务,同时有其自身的语料特点。本文从词向量表示和文本特征提取以及挖掘公文标签之间的相关性三个方向入手,综合提出对标签相关性进行高阶建模的多标签预测模型作为最终的公文多标签分类算法方案。本文主要完成以下工作内容:(1)针对公文数据集领域词汇多,语料库较小等问题提出了两个词向量表示优化方法。首先是基于Word2Vec的词向量融合方法,用大型公共语料库的预训练词向量来扩展公文领域中的词向量,一可以扩展公文域中的词汇量,二在其自己的域中保留上下文语义的同时丰富原始词向量的语义特征信息。第二个是直接抽取应用Bert预训练的词向量来深度挖掘文档字段中的上下文语义信息。两种方法对模型性能均有不错的提升。(2)设计了一种引入标题与正文协同注意力的特征提取结构。政府文件标题结构清晰。这意味着所有正式文件的标题都包含高度概括的正文内容摘要词汇,因此可以在上下文编码过程中引入标题信息的辅助特征提取,并获得具有更突出的关键信息的文本信息,从而提高预测精度。本文利用标题和正文的协作注意力来捕获标题和正文之间的关系,并获得具有标题意识的上下文编码。在不考虑标签相关性的情况下,结合上述改进提出了一阶分类模型TA-LEM验证了词向量优化与特征提取改进在公文任务上的有效性。(3)考虑多标签相关性指导标签预测,结合上述改进构建两种对标签高阶建模的多标签分类模型:a.TA-SGM模型使用标签序列生成方法建模标签之间的语义关联;b.GML-GCN模型将每个分类器当作图中的节点,利用图结构中的流动性对标签间的内在关联性进行建模。实验结果表明两种模型效果在政府公文上都要好远于传统的多标签分类模型并达到了项目应用验收要求。