论文部分内容阅读
文本分类是自然语言处理领域的一个基本任务,是指根据文本内容将给定文本划分到一个或多个预先定义的类别中,根据给文本划分类别的个数分为单标签文本分类和多标签文本分类。基于深度学习技术能较好解决海量文本自动分类的问题,传统的递归神经网络要逐步递归才能获得全局信息,较难实现并行化,训练速度慢;卷积神经网络只能获取局部信息,要通过多层堆叠才能增大感受野,捕获更长的上下文信息;而转换器模型是一个完全依赖注意力机制来建立输入和输出之间全局依赖关系的深度神经网络,其中的一个自注意力层就可以学习到句子内部词之间的全局依赖关系,每层计算复杂度低,可以更好的并行化,更容易学习长距离依赖。但基于转换器模型的文本分类技术仍然存在诸多不足,包括对短文本的稀疏性、长文本的冗余性处理不足等。本文基于实际应用数据的特性,针对现阶段基于转换器模型的单标签短文本分类和多标签长文本分类中存在的缺陷,提出新的文本分类模型,提升文本分类的效果,主要工作如下:(1)针对现阶段单标签短文本分类存在文本内容较短,信息不足的难点,先爬取搜索引擎搜索结果的第一条新闻内容,再通过TF-IDF算法提取关键词做为原新闻标题数据的补充特征;并采用转换器模型的编码器对词级、字符级输入分别进行编码再融合;同时针对存在难、易训练样本的问题,加入焦点损失进一步提升单标签短文本分类的效果。(2)针对现阶段基于seq2seq架构完成多标签长文本分类存在冗余信息多,难以抽取有效的特征词的难点,在转换器模型的基础上,提出多路选择机制,并采用融和门控制各路信息的流通;并且在解码时加入限制,避免生成重复标签;同时针对序列生成时由于类别标签不均衡,存在难、易训练样本的问题,加入焦点损失进一步提升序列生成的效果。(3)对单标签短文本分类和多标签长文本分类分别展开实验对比。评估对单标签短文本分类采用特征扩展,词级、字符级双重编码以及加入焦点损失的有效性;对基于seq2seq架构完成多标签长文本分类任务中加入多路选择机制,并使用融和门进行信息融合以及解码限制和加入焦点损失提升序列生成效果的有效性。实验结果表明上述方法均有效提升了分类的效果。