基于深度学习的多标签文本分类研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:dddbj126
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多标签文本分类作为自然语言处理领域的一项基础任务,广泛应用于情感分析、问答系统和推荐系统等领域。本文主要研究基于深度学习的多标签文本分类,通过深入分析了多标签文本分类的难点并从当前的国内外研究现状中受到启发,提出了两种多标签文本分类模型:1.本文第一个模型提出一种融合标签注意力机制和自注意力机制的方法来获取文本特征表示,同时在模型预测层加入了关系网络来获得标签间的相关性。标签信息对文本分类起重要作用,模型如果能在提取特征阶段就知道当前分类的目标和信息,那么就能根据标签提供的信息从文本中挖掘出关于该标签的关键信息从而得到更准确的关于该标签的特征表示。同时本模型考虑分类时,有的标签只需挖掘出文本的局部特征就能进行划分归类,而有的标签则需要挖掘出文本的全局特征才能预测出来。因此,本文同时还使用了自注意力机制来提取文本特征。接着,本模型根据两种特征表示的特点,从中抽取出两种表示的重要信息得到最终的文本特征表示。最后,本模型在预测层中加入了关系网络,通过该网络模型能得到更准确的带有标签相关性的标签预测向量。实验结果表明相比于基准模型,该模型取得了更好的效果。2.本文第二个模型采用Seq2Seq的方式来做多标签文本分类。该模型由编码器和解码器两部分构成,编码器把文本词向量编码得到单词的隐向量,解码器则依次生成标签序列。预测标签时,本模型通过注意力机制聚焦文本不同部分,得到关于待预测标签的文本特征表示。考虑到全面理解文本特征对分类任务的重要性,本模型提出将注意力机制基础上得到的文本特征表示与预训练的文本向量进行融合以获得更全面准确的特征表示,将融合后的特征表示向量将用于解码器解码。同时,本模型使用了形变LSTM作为模型的解码器。为了获得标签间的相关性,模型解码阶段将根据之前预测得到的标签来预测当前的标签。当然这种做法可能会产生暴露偏差的问题,如果先前标签预测错误的话可能会降低后面标签预测的准确度,因此本模型采用了一种全局标签嵌入的方法来缓解这个问题。实验结果表明相比于基准模型,该模型取得了更好的效果。
其他文献
在移动互联网带来了爆炸增长的数据的前提下,人工智能进入了飞速发展的阶段。但随着人们对数据隐私的日益关注,世界各国相关法案的出台和完善,如何在保护数据隐私的情况下,进行大数据研究已经逐渐受到学术界和工业界越来越多的关注。在这样的背景下,作为打破数据孤岛、释放人工智能应用潜能的机器学习技术,联邦学习无疑是当前最受工业界和学术界关注的研究方向之一。联邦学习主要解决了以下困境:一是由于互联网企业巨化,各个
目前,越来越多的文档以数字资源的形式呈现在互联网上。这些文档内容繁多、结构混乱,使得从这些文档中快速提取有效信息的工作变得十分困难。实体关系抽取作为实现信息结构化的关键技术,可以很好的解决这个问题,并在构建知识图谱、智能问答系统以及自然语言生成方面有着非常重要的作用。基于深度学习的关系抽取在关系抽取中有着比较不错的效果。但是基于深度学习的算法的数据预处理中添加了越来越多由自然语言处理工具得到的额外
随着我国信息科技实力的不断提升,网络空间中的内容极速膨胀,大量数据问题一涌而出,如:博客网站充斥了大量的抄袭内容,搜索出的内容重复性极高;智能客服对话系统需要根据用户提问从海量数据库中匹配到最相关的答案;网络云盘中的重复文件浪费了巨大的物理存储空间。解决数据爆炸增长所带来的各种问题是一项重要的研究,而文本语义相似度计算正是解决这些问题的必备技术。文本语义相似度计算是本文的研究主题。本文做了大量的研
学位
随着无人船集群技术的加速发展,海上无人系统的研发与训练也变得至关重要。有效的海上无人系统能够打破单船能力的局限性,协同集群中每艘无人船从而激发出整个集群的力量。然而训练海上无人系统需要大量且有效的无人船实验数据,无人船实验数据的获取不可避免地受到时间,环境,人力,财力等多种因素的限制,如何在短时间内低成本地获取海量训练数据将成为传统无人船训练系统一项新的挑战。本文经过对无人船训练系统的研究和分析,
学位
近年来,随着数据资源和计算能力的增长,机器学习快速发展,被应用到各个领域,例如:图像识别、行人检测、航空监管等等。在机器学习训练阶段使用的数据越多,则预测阶段机器学习模型精度越高。然而,海量数据的使用对本地计算资源带来了挑战。得益于云服务的应用,大量的机器学习的训练和预测都被外包到云服务器上进行。然而云服务自身数据安全事件频发,这加剧了公众对于数据泄露的担忧。为了解决云服务环境下机器学习中的数据泄
现如今,随着人们的生活压力和工作压力的不断提高,人们的健康问题日益凸显,据统计数据显示中国人民约70%的人处于亚健康状态,因此关注自身健康变得愈发重要。目前健康管理的理念逐渐走进人们视野,并且健康管理的国内市场也逐步火热。健康管理中比较重要的一部分就是营养摄入平衡,而人体每日所需营养中通过液体摄入的不占少数,例如水,维生素,蛋白质等,因此液体检测技术作为营养监测的一种途径显得尤为重要。液体检测技术
随着异构无人系统的应用越来越广泛,多机器人协同成为趋势,而异构多机器人协同的基础是要实现异构平台或设备的互联互通并进行有效的信息交互。但是由于执行协同任务的无人系统并非来自于同一生产厂商的同一型号,所以无人系统间建立互联互通就会带来诸多问题。比如最常见的由于无人系统间接口标准、数据传输方式以及能力的不同,使得无人系统表现出很强的个体异构性,影响无人系统的通信效率,为了屏蔽异构性,通常的实现方式是将
随着数字化时代的到来,人们在问答系统、智能客服、信息检索、文本复述、机器翻译等人工智能领域的需求日益增长。为了提供高质量、高效性的服务,无数学者投入到文本语义匹配的相关技术研究中。作为自然语言处理领域的一项基本问题和研究热点,过去文本语义匹配问题的相关研究主要是基于统计机器学习技术的。该类语义匹配模型需要消耗大量的人力成本才能挖掘出文本潜在的特征。随着深度学习技术的日新月异,文本数据的特征提取不再