基于深度学习的政府公文智能分类技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:myulyx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
政府公文智能分类技术在提高政务办公效率方面有着极大的的实际应用意义,是政府政务智能化需要突破的重点方向之一。本文的选题来自于政府智能公文项目,首次将以深度学习为主的自然语言处理技术应用到政府公文分类领域中,以提高模型准确率为目标,为实际政府公文智能处理应用系统提供符合应用标准的算法方案。政府公文任务是一个典型的多标签文本分类任务,同时有其自身的语料特点。本文从词向量表示和文本特征提取以及挖掘公文标签之间的相关性三个方向入手,综合提出对标签相关性进行高阶建模的多标签预测模型作为最终的公文多标签分类算法方案。本文主要完成以下工作内容:(1)针对公文数据集领域词汇多,语料库较小等问题提出了两个词向量表示优化方法。首先是基于Word2Vec的词向量融合方法,用大型公共语料库的预训练词向量来扩展公文领域中的词向量,一可以扩展公文域中的词汇量,二在其自己的域中保留上下文语义的同时丰富原始词向量的语义特征信息。第二个是直接抽取应用Bert预训练的词向量来深度挖掘文档字段中的上下文语义信息。两种方法对模型性能均有不错的提升。(2)设计了一种引入标题与正文协同注意力的特征提取结构。政府文件标题结构清晰。这意味着所有正式文件的标题都包含高度概括的正文内容摘要词汇,因此可以在上下文编码过程中引入标题信息的辅助特征提取,并获得具有更突出的关键信息的文本信息,从而提高预测精度。本文利用标题和正文的协作注意力来捕获标题和正文之间的关系,并获得具有标题意识的上下文编码。在不考虑标签相关性的情况下,结合上述改进提出了一阶分类模型TA-LEM验证了词向量优化与特征提取改进在公文任务上的有效性。(3)考虑多标签相关性指导标签预测,结合上述改进构建两种对标签高阶建模的多标签分类模型:a.TA-SGM模型使用标签序列生成方法建模标签之间的语义关联;b.GML-GCN模型将每个分类器当作图中的节点,利用图结构中的流动性对标签间的内在关联性进行建模。实验结果表明两种模型效果在政府公文上都要好远于传统的多标签分类模型并达到了项目应用验收要求。
其他文献
单片机音乐编程近年来受到了单片机爱好者的广泛关注。本文从音乐简谱的简单识读出发,将音乐的简谱分离出两个要素:音调与节拍,最小化地利用51单片机的系统资源,提出一种将音
实验是高校教学必不可少的环节,随着现代化网络技术的发展,将网络远程控制技术引入高校实验设备及项目越来越普遍,实现了课程实验和工程项目相结合,虚拟仿真与现场实验相结合
利用稳态法测试了固体复合材料在不同温度下的导热系数及复合材料与铜之间的接触热租。在90K-300K的温度范围内,固体复合材料导热系数随温度的提高而增大,而当温度上升时,接触热
排污权交易制度通过赋予污染排放者合法的污染物排放权利,并允许这种权利在市场上进行交易来实现对污染物排放控制的制度,其作为一项环境制度不断的发展的新型制度,排污权交
合成孔径雷达(Synthetic Aperture Radar,SAR)是一种主动微波相干成像雷达,它分别利用距离向的脉冲压缩技术和方位向的综合孔径技术来实现较高的空间分辨率。相比于其他光学
电视剧制作中,好的声音获得要从拾音环节开始。在电视剧声音录制中要考虑的因素很多,其中电平的控制、音色的调节、动态的调控、空间感的获得、平衡处理等方面是至关重要的,
定额结算因其审核结付方便,简单易行,管理成本低而成为目前我国基本医疗保险的主要结算方式之一.文章通过实例分析了定额结算下医院的费用补偿机制以及定点医院的可能反应,旨
<正>原地正面双手胯下向前抛实心球是南通市初中体育中考过程性考试项目,也是增强学生上肢及其腰腹部力量的运动项目,还是发展学生的协调能力和爆发力等综合素质的项目。因此
氮氧化物的产生与转化是中学化学的重要内容,经探索对一氧化氮、二氧化氮的性质实验装置进行了改进和创新。利用单连球与气球并结合分液漏斗仪器特点将NO与NO2之间转化在一个
研究目的:我国设计规范因缺少高强钢筋疲劳设计参数,给高强钢筋在铁路工程中的推广应用带来困难。为贯彻落实国家产业政策,充分发挥高强钢筋技术经济性能以及为标准修订提供技术