基于文本和标签表示优化的多标签文本分类的研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:kxy66
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签文本分类一直是文本研究领域的研究热点之一,其在很多领域都具有广泛的应用价值,比如文本检索系统、推荐系统、情感分析以及对话系统等。在这些领域中,多标签文本分类相对于传统文本分类具有以下两方面特点:(1)标签信息对于文本特征表示有很大的影响,考虑标签信息对于提取出有用的文本特征至关重要;(2)标签之间相互关联,如何解决标签之间的相关性问题也是一大难点。深度学习相对于传统机器学习方法在文本语义特征的自动提取和表达上效果更优,并且深度学习模型在标签信息表示和标签作用关系的表示上能力更强。因此,为了解决上述问题,本文提出两个基于深度学习的多标签文本分类模型,主要工作有:(1)对论文研究涉及到的相关工作进行了扼要的综述。首先介绍了传统的文本表示模型,接着介绍了深度学习模型下的词嵌入表示模型;然后分别介绍了几种经典的传统机器学习分类方法和深度学习的多标签分类方法以及各种变体;最后,分析了各种模型的优劣以及深度学习模型相比传统机器学习模型的优势。(2)针对传统多标签分类方法未充分考虑标签信息和标签之间的相关性的局限性,提出基于标签信息的注意力机制的多标签文本分类模型LSABN。LSABN模型使用基于标签信息的内积式注意力机制或者参数拼接式注意力机制优化文本特征向量表示,并且对每个标签学习到不同的文本特征表示。另外,该模型通过标签关系有向图迭代优化标签嵌入表示,并通过引入正则化项将标签之间的相关性考虑进来以提高分类效果。实验结果验证了该模型相对于基准模型的优越性。(3)针对句子结构语义级别的语义表示欠佳和标签嵌入表示学习不充分的问题,提出了基于混合语义和图注意力机制的多标签分类模型HSGAT。HSGAT模型通过引入胶囊网络到多标签文本分类中解决了传统神经网络对于句子中单词位置信息不敏感的问题。另外,该模型考虑使用图注意力机制迭代优化标签嵌入表示,将优化后的标签嵌入表示用于分类极大程度上缓解了标签关系图中共现而预测结果中不共现的问题。实验结果验证了该模型相对于基准模型的优越性。
其他文献
移动网络与智能终端的飞速发展,催生云游戏、虚拟现实及图像识别等多元化计算密集型应用的接连涌现。但是,各类新兴应用的密集计算需求对移动智能设备任务计算能力提出巨大挑
调频连续波(Frequency Modulated Continuous Wave,FMCW)雷达由于具有无距离盲区、测距精度高且结构简单等优势,使其应用领域逐渐从军用走向民用。随着FMCW雷达的广泛应用,对
优生优育对于降低新生儿的先天畸形概率,提升生殖健康水平,乃至提高全民的整体健康水平,均具有重要的现实意义。目前,优生优育临床检测的主要标志物称为TORCH五项,分别为:弓
受到构件干涉、运动奇异等因素的影响,传统并联机构的工作空间一般比较小,某种程度限制了并联机构的应用范围。课题组通过匹配耦合支链以增大并联机构输出空间的方法,综合并获得了一批新型耦合并联机构——双并联耦合机构。本文主要针对该类新型大工作空间双并联耦合机构以及基于一种球面双并联耦合机构研制的4-RRR//RRR+R冗余支链混联球面仿人肩关节机构的部分性能特征进行研究。推导了双并联耦合机构的转动和移动叠
随着互联网行为式验证码技术的发展,以拖动滑块为代表的鼠标轨迹识别因其传输数据小、暴力破解难度大等特点,广泛运用于多种人机验证产品中。但是攻击者可通过黑产工具产生类
在传统的核酸检测研究中,往往需要加入特定的试剂、荧光剂或者探针等,同时也带来操作步骤繁杂、成本高、污染样品、污染环境等问题。本论文在不添加荧光剂或者探针进行标记的情况下,利用常规光荧光方法,对影响单链脱氧核糖核酸样品(ssDNA)荧光特性的多个因素进行了实验研究,并结合ssDNA的结构特点分析了造成这些影响的物理机制。在此基础上,还探索了不同影响因素下ssDNA样品的无标记鉴别方法。本文的主要内容
软件开发技术日益更替,由于开发的周期,项目的复杂性等原因很容易引入代码异味。研究表明代码异味会降低代码的可理解性和可维护性,致使程序出错,从而引发深层次的设计问题。
随着第五代移动通信(5th Generation Mobile Networks,5G)商用的快速推进,高带宽、低延迟和超密集连接等无线特性也越来越受到人们的喜爱。与此同时,无线信息的广播特性使得
小型飞行器一般适用于工作在城区、山地等复杂地形的空域中。由于其自身尺寸小、雷诺数低的气动特点,这种飞行环境下的突风扰动问题一直是严重制约其发展的关键性技术难题。
经济全球化加速全球服务外包产业发展,数据录入是外包业务类型之一,涉及多种数据类型。图像录入常用的方法OCR由于对如中文、日文这类字形繁杂,字形间差别较大的文字难以分辨