【摘 要】
:
多标签文本分类是指一个文本实例可以同时关联一组标签集合而非单个标签。随着数据的爆炸性增长,基于深度学习的多标签文本分类已经成为该领域的一个研究热点。深度学习中的注意力机制广泛应用于多标签文本分类中,并为所有的标签学习出唯一的特征表示。由于不同的标签蕴含不同的语义信息,文本中的同一单词应当被不同标签赋予不同的关注度,然而传统的注意力机制未能考虑这一问题。随着标签数目的增加,利用标签关系可以有效缩小标
论文部分内容阅读
多标签文本分类是指一个文本实例可以同时关联一组标签集合而非单个标签。随着数据的爆炸性增长,基于深度学习的多标签文本分类已经成为该领域的一个研究热点。深度学习中的注意力机制广泛应用于多标签文本分类中,并为所有的标签学习出唯一的特征表示。由于不同的标签蕴含不同的语义信息,文本中的同一单词应当被不同标签赋予不同的关注度,然而传统的注意力机制未能考虑这一问题。随着标签数目的增加,利用标签关系可以有效缩小标签预测过程中输出空间的规模。因此,大部分方法致力于挖掘标签之间的潜在关系,例如标签对、标签子集以及标签链等。但是,这些关系仅仅反映了标签之间的局部信息,同时大部分标签结构都是随机生成的,使得分类性能不稳定。此外,多标签文本数据集经常出现长度过长、信息冗余以及语义复杂等问题。针对以上多标签文本分类存在的问题与挑战,本文的主要工作有:1.针对传统的注意力机制无法为每个标签学习出其最相关的文本表示的问题,本文提出了一种基于分离的注意力机制的方法。通过引入随机初始化的标签向量,为不同的标签设计独有的注意力模型,避免预测过程中标签之间的相互干扰。同时,本文利用基于多层扩张卷积与长短时记忆网络的混合门机制挖掘文本的深层语义信息。实验结果表明,基于分离的注意力机制的方法在标准数据集的多个指标上均超过了基准模型。2.针对大部分标签关系仅仅反映出标签的局部信息,同时标签结构随机生成的问题,本文提出了一种基于图卷积网络的方法。该方法通过利用基于标签共现矩阵的多层图卷积网络增强标签节点之间的交互性,同时利用预训练的词向量初始化标签向量,引入标签语义信息。实验结果表明,提出的模型在标准数据集的多个指标上均超过了基准模型。此外,实验还验证了图卷积的层数对模型性能的影响。3.针对多标签数据的文本过长、信息冗余以及语义复杂等问题,本文提出了一种基于文本关键词图的方法。该方法通过关键词抽取技术挖掘文本中的关键词并建立文本关键词图。同时,通过图卷积网络进一步加强关键词之间的语义关联,并基于分离的注意力机制进行最终的分类。实验结果表明,基于文本关键词图的方法在标准数据集的多个指标上均超过了基准模型。
其他文献
水泥作为广泛应用的建筑材料,其筑成的钢筋混凝土结构成为最普遍的建筑形式。钢筋混凝土结构除了考虑结构的安全性、适用性以外,其耐久性也日益成为人们关注的重点。在众多滨海环境中,海水中氯离子引起混凝土结构中钢筋锈蚀成为了最突出的耐久性问题,甚至直接影响结构的安全性和造成严重的经济损失。所以,有效、精确表征水泥基材料中氯离子的分布特征(深度和浓度)对于建立有效的氯离子传输模型、预测水泥基材料的使用寿命具有
在经济产业结构转型升级的大环境下,国家城镇化建设也在不断推进,现今国内城镇建设复制化现象严重,城镇的辨识度较低,难形成有自身特色的城市名片,“特色小镇”便是在这一时期提出的一种新型模式的探索。浙江省是国内最先提出并开始建设发展的省份,国家也于2016年出台了相应政策支持特色小镇的发展,一时间全国掀起了一股建设特色小镇的浪潮,部分特色小镇在建设之初发展较好如余杭梦想小镇、西湖云栖小镇等,还有部分小镇
磁流变塑性体(Magnetorheologicalplastomer,MRP)是一类将磁性颗粒分散到低交联度聚氨酯(polyurethane,PU)中形成的具有磁敏特性的新型磁流变材料。它像橡皮泥材料一样具有良好的可塑性,能够塑造成各种形状。无磁场时,磁性颗粒均匀地分散在PU基体中,不会发生团聚和沉降;当施加一个外部磁场时,PU基体中的磁性颗粒可以克服基体的约束自组装成与磁场方向平行的结构,因此M
在我国市场经济持续发展以及人民生活水平快速提高的影响下,黄金资源的需求量和消费量也呈现出一种不断增加的趋势,这就对金矿资源开采提出了更高的要求。当下各类科学技术的发展,使得金矿找矿勘查技术得到了进一步的创新,但其中仍旧存在着一些问题,对金矿资源的开采产生了制约。本文从我国金矿行业的发展概况分析入手,就我国常用的金矿找矿勘查技术以及其中暴露的问题做出了深刻的解析,从勘查技术的创新发展、勘查组织工作的
近年来,计算机图形学得到了迅速的发展,在科学研究、工业设计以及日常生活娱乐中的应用层出不穷,扮演了越来越重要的角色。在计算机图形学中,计算曲面的参数化映射是一个基本的问题,在曲面的表示和处理上有着非常重要的地位。一般来说,参数化映射需要满足无翻转和低扭曲的条件。为了满足各种不同应用的需求,一些特殊的参数化映射得以产生。本文将研究一类特殊的参数化映射——轴对齐参数化映射,其参数化区域具有边界对齐坐标
非均匀有理B样条(NURBS)和细分是两种主要的自由曲面表示方法。NURBS是工业的标准,细分是动画的标准表示。为了将NURBS推广到任意拓扑,引入了非均匀细分。本文主要研究了非均匀细分,包括以下三个方面的内容。第一部分,我们通过特征多边形构造了一个新的非均匀Doo-Sabin细分格式,证明了在一个较小的假设下(当λ是细分矩阵的第二和第三特征值),对于任意价奇异面和任意给定的正的节点距,极限曲面总
本文研究了超奇异同源图以及同余方程λ1x1k1+…+λtxtkt≡c mod n解的计数两个问题.第一章,我们首先简单回顾了超奇异同源图的研究背景以及已知的研究成果,并且介绍了我们在同源图中Fp点处得到的结果.其次我们回顾了同余方程解的计数问题,并且介绍我们的主要定理.第二章,我们回顾了代数数论,椭圆曲线和复乘,以及Deuring对应的基本理论.第三章,我们介绍了超奇异椭圆曲线同源图的定义gl(F
随着网络技术的不断发展与进步,光通信系统需要更高的通信带宽与速率,这些新的挑战给光通信领域带来新的发展机会。可调谐激光器在光通信、传感等领域有着重要的作用。而光通信系统面临光信号处理与分析的新挑战,对激光器的线宽也提出了新的要求。可调谐窄线宽激光器也是高速相干光通信系统中的核心光电子器件。本论文基于重构等效啁啾技术设计并制作了双段式HR-AR镀膜激光器及其阵列,并研究了一种压窄可调谐激光器线宽的新
燃料电池被认为是21世纪以来最有前景的新能源技术之一。然而,燃料电池阴极的氧还原反应过程非常迟缓,高度依赖Pt贵金属催化剂,而由于Pt贵金属储量不明且年产量较低,这严重阻碍了燃料电池的大规模商业化应用。如今Pt-M合金体系成为燃料电池催化剂研究的热点,Pt-M合金体系不仅能有效降低电极Pt载量使燃料电池的成本显著下降,同时合金的形成调整了Pt的d带中心,优化氧还原过程中催化剂与氧的结合能,从而带来
激光雷达相对于传统电磁波雷达,具有测量范围广、测量精度高、抗干扰能力强、体积小等优点,在现代社会中实现了广泛应用,大量应用于军用和民用领域。低成本、高精度、小体积、可集成是激光雷达目前的主要发展方向,半导体激光器具有工作稳定性好、体积小、波长范围广、工作寿命长、可直接调制等优点,成为了激光雷达系统的理想光源。双频半导体激光器作为激光雷达测速和测距的光源,具有测量精度高、抗干扰、便于集成等优点,应用