深度学习在文本分类中的研究与应用

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:kantstop
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理领域的一个基本任务,是指根据文本内容将给定文本划分到一个或多个预先定义的类别中,根据给文本划分类别的个数分为单标签文本分类和多标签文本分类。基于深度学习技术能较好解决海量文本自动分类的问题,传统的递归神经网络要逐步递归才能获得全局信息,较难实现并行化,训练速度慢;卷积神经网络只能获取局部信息,要通过多层堆叠才能增大感受野,捕获更长的上下文信息;而转换器模型是一个完全依赖注意力机制来建立输入和输出之间全局依赖关系的深度神经网络,其中的一个自注意力层就可以学习到句子内部词之间的全局依赖关系,每层计算复杂度低,可以更好的并行化,更容易学习长距离依赖。但基于转换器模型的文本分类技术仍然存在诸多不足,包括对短文本的稀疏性、长文本的冗余性处理不足等。本文基于实际应用数据的特性,针对现阶段基于转换器模型的单标签短文本分类和多标签长文本分类中存在的缺陷,提出新的文本分类模型,提升文本分类的效果,主要工作如下:(1)针对现阶段单标签短文本分类存在文本内容较短,信息不足的难点,先爬取搜索引擎搜索结果的第一条新闻内容,再通过TF-IDF算法提取关键词做为原新闻标题数据的补充特征;并采用转换器模型的编码器对词级、字符级输入分别进行编码再融合;同时针对存在难、易训练样本的问题,加入焦点损失进一步提升单标签短文本分类的效果。(2)针对现阶段基于seq2seq架构完成多标签长文本分类存在冗余信息多,难以抽取有效的特征词的难点,在转换器模型的基础上,提出多路选择机制,并采用融和门控制各路信息的流通;并且在解码时加入限制,避免生成重复标签;同时针对序列生成时由于类别标签不均衡,存在难、易训练样本的问题,加入焦点损失进一步提升序列生成的效果。(3)对单标签短文本分类和多标签长文本分类分别展开实验对比。评估对单标签短文本分类采用特征扩展,词级、字符级双重编码以及加入焦点损失的有效性;对基于seq2seq架构完成多标签长文本分类任务中加入多路选择机制,并使用融和门进行信息融合以及解码限制和加入焦点损失提升序列生成效果的有效性。实验结果表明上述方法均有效提升了分类的效果。
其他文献
为克服传统有限元法不能很好地模拟高速碰撞中材料的大变形和飞溅问题,针对子弹侵彻下颌骨过程,提出了一种碎骨飞溅的模拟方法,即节点分离-耦合法。以猪下颌骨为例,采用六面
商务谈判是在经济活动中,谈判双方通过协商来确定与交换有关的各种条件,并最终确立共同利益的行为过程。商务谈判要想成功取胜,需要一些技巧。作者认为,商务谈判要想取胜并得
<正>塔科马海峡桥(Tacoma Narrows Bridge)位于美国华盛顿州,旧桥于1940年建成,该桥是华盛顿州耗资640万美元建成的悬索大桥,享有世界单跨桥之王的称号.该桥主跨853.4m,全长1 8
我国国有商业银行目前的薪酬体系还存在一定的缺陷,主要表现在:第一,国有商业银行薪酬水平缺乏外部竞争力。在我国,国有商业银行的工资总额的基数完全由银行的主管政府、劳动保障
自古以来,兴学育才,善莫大焉。近年来,由于国力的不断提升,许多地方正在实施直通高中阶段的十五年免费教育,这让适龄青少年上学更有保障。但是,老百姓在分享民生政策红利的同
目的对股骨头坏死治疗研究进行浅析,为临床应用与科研提供可靠依据。方法通过维普信息资源系统V6.33、中国期刊全文数据库及图书馆查阅2008~2012年关于股骨头坏死治疗研究的相
首先定义了税务筹划风险内涵,并从政策风险、经营风险和执法风险三方面对其进行了论述。在此基础上提出了应对风险的四种对策:合理确定税务筹划目标;努力降低税务筹划成本;正
在当今全球经济一体化快速发展的时代大背景下,区域形象越来越成为许多国家或地区所关注的重点。区域形象对地区经济的发展有着极其重要的作用,从而加快了全球经济一体化趋势
目的:探讨实验诊断学检查指标在现行《中医病证诊断疗效标准》制定中的应用,探索实验诊断学对于中医学的价值。方法:参阅国家中医药管理局颁布的现行《中医病证诊断和疗效标
笔者通过构建环境规制与经济增长之间的联立方程模型,检验了1996年~2010年两者的相互关系。检验结果显示:就全面层面数据而言,环境规制与经济增长两者间存在单向因果关系;在我