细粒度文本分类研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:ytcjy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类任务对于文档存档,检索,分析和挖掘是至关重要的。传统文本分类的目标是预测文档的标签,大都属于单文本单标签的文本分类任务,虽然取得了很多令人瞩目的成就,但是随着用户需求的不断增加和应用场景的不断变化,传统文本分类任务的发展面临着两方面的限制。第一,从文本粒度来看,传统的文本分类是对整篇文档进行分类,属于粗粒度的文本分类任务。然而,随着应用场景越来越复杂,粗粒度文本分类研究已经不能满足人们的需求。以一个真实的场景为例,某互联网平台上有海量商品评论,用户从评论中想深入了解目标产品的各个方面从而做出决策,而商家更想从评论中了解用户对某一产品各个方面的喜好程度,这些需求推动了细粒度方面级文本分类任务的快速发展。第二,从标签粒度来看,传统的文本分类大部分只需要预测文档的一个标签,属于单标签的文本分类任务。然而,随着文档数量和标签数量的不断增加,标签粒度越来越细,这些标签之间既有显式的层次关系,又有隐式的内在关联,这些需求推动了细粒度层次多标签文本分类任务的快速发展。本文从文本粒度和标签粒度两个不同的角度出发,主要研究了两个细粒度文本分类任务-细粒度的方面级情感分析(Aspect-based Sentiment Analysis,简称ABSA)和细粒度的层次多标签文本分类(Hierarchical Text Classification,简称HTC)。前者旨在检测评论文本中多个方面(也称为意见目标)的情感极性,而后者的目的是在给定的标签层次结构中从上到下依次预测文档的多个标签。在深度学习时代,研究者们提出了很多基于神经网络的监督方法来解决这两个任务。针对ABSA任务,大多数基于神经网络的ABSA方法运用注意力机制来捕获意见目标相应的情感词,然后将其汇总为证据来推断意见目标的情感极性,虽然取得了可喜的效果,但是由于ABSA标注数据是有限的,因此它们未能充分发挥注意力机制的潜力。对于HTC任务而言,现有的基于神经网络的HTC方法主要利用父级标签信息来指导子级分类并且取得了很好的效果,但是它们忽略了真实场景中由不正确的父级标签引起的错误传播问题。针对以上存在的问题,本文分别提出以下解决方法:1.标注数据不足会限制基于注意力的模型对ABSA任务的有效性,相比之下,互联网中存在海量的文档级情感分类数据,而且这些数据中包含着大量情感信息和语义模式,因此本文提出了面向方面级情感分析的注意力转移网络ATN,以利用资源丰富的文档级情感分类语料库中的注意力知识来提高资源贫乏的方面级情感分类的注意力能力,最终达到改善ABSA性能的目标。2.现有的HTC方法忽略了真实场景中由不正确的父级标签引起的错误传播问题,因此本文提出了面向层次多标签文本分类的标签修正胶囊网络LCN。具体来说,我们将层次胶囊网络作为基本模型,在此基础之上,我们设计了标签注入和标签路由两种方法来增强模型对不正确父级标签的容忍度,最终达到提高HTC任务鲁棒性的目标。本文围绕细粒度文本分类任务展开研究,基于合理的研究动机提出相应的改进模型,并在公开数据集上取得了最佳的效果,证明了所提模型的有效性。
其他文献
目标检测作为计算机视觉领域最具基础性和挑战性的核心任务,在安防监控、行人检测等实际领域有着广泛的应用。低光照环境的多样性给各类目标检测算法带来了严峻的挑战,制约了其在全天候交通监测、自动驾驶等复杂场景下的应用。因此,低光照场景下的图像增强、目标检测等相关理论和技术研究具有重要的现实意义和应用价值。本文从低光照图像增强和目标检测两个方面入手,聚焦低光照场景下的目标检测算法并开展了探索与研究。一方面,
随着网络数据海量扩增,对入侵行为的检测变得更加困难。溯源记录了数据的来源,表征了数据对象之间的依赖关系。将溯源和卷积神经网络结合,并应用于入侵检测,是提高入侵行为检测效果的一个重要手段。但目前该方法不能很好地挖掘溯源信息,且当多用户行为入侵同时发生时无法确定具体入侵行为,导致检测过程时间消耗大、检测率低、误检率高等问题。针对以上问题,提出了基于溯源数据处理优化的入侵检测方法。首先,设计了优化的基于
随着移动互联网的发展,基于位置服务的应用给人们的生活带来了便利。社交网络中由于位置数据发布和显性社交关系而导致的位置隐私泄露问题引起了人们的重视,研究位置数据发布时位置数据保护,对于保障位置数据的安全具有重要的意义。在位置数据离线发布的场景中,由于假设位置之间独立性,现有的位置隐私保护方法应用于真实世界的数据集时将暴露比预期更多的位置隐私信息。社交网络中好友间的双向关注关系(即显性社交关系)说明社
以深度学习为首的计算机视觉技术不断进步,在图像分类、视频分类、目标检测等领域取得了很大突破。动作识别指通过计算机技术对视频或者图像序列进行动作特征的提取并进行分类的技术,动作识别在智能监控,视频分类,视频内容分析等领域具有重要意义。论文尝试了将动作识别与信息安全融合,探究利用视觉技术从视频流中分析出用户在键盘上输入的可能性。针对该任务,论文提出了一个小型数据集。论文提出的方法首先将视频流划分成小的
学位
随着信息产业的发展,工业界的软件系统规模逐渐增大。软件开发过程逐步由传统开发向敏捷开发演进,导致测试过程中出现了两个现象:一方面,产品规模的增大会带来测试用例集的不断增大,每一次迭代都可能会加入新的测试用例,而删除旧用例的可能性较小,单次测试的耗时因此越来越长;另一方面,软件产品迭代的速度不断加快,自然地,回归测试的频率也随之增加。因此,测试时间过长及资源消耗过多的问题更为凸显,回归测试的高耗时逐
互联网发展的日新月异一方面带给人们更多的便利和选择,另一方面却使人们面临信息过载的问题无从选择。推荐系统(Recommendation Systems,RSs)的研究极大的缓解了信息过载的问题并在人们的生产生活中发挥了重要的作用。其中,生成对抗网络(Generative Adversarial Networks,GANs)因为其在模拟用户偏好分布上的能力逐渐被研究人员应用于推荐领域研究。然而,已有
隐蔽通道是系统的一个用户通过违反系统安全策略的方式传送信息给另一个用户的机制。根据TCSEC的要求,开发具有B2级及以上的数据库管理系统必须进行隐蔽通道分析。隐蔽通道分析的核心问题是隐蔽通道的标识,隐蔽通道标识主要在顶级描述和源代码级这2个层次进行。源代码复杂难懂,但源代码级的搜索方法精度要高于基于系统顶级描述的搜索方法。现阶段仍然缺少基于数据库源代码的隐蔽通道分析工具,更缺少能够自动、高效的进行
地源热泵技术在建筑中的应用是解决当今能源耗费过快问题的有效方法之一。浅层岩土的热物性参数作为地源热泵系统设计的核心,其测试结果的准确性对浅层地热能的开发利用具有重要意义。本文基于地质统计学中的两种空间插值法——克里金法和序贯高斯法对武汉市区浅层岩土的主要热物性参数(有效导热系数和体积比热容)分布进行模拟,并提出序贯高斯法的优化方案,改进对该区域热物性参数分布的预测精度,为地源热泵系统的优化设计提供
智慧时空云平台是综合应用物联网、云计算、大数据和3S集成技术等新技术,通过数据关联、融合、提取、分析,形成的一项智慧城市公共服务体系。对于智慧时空云平台的项目策划研究,是对智慧项目建设、管理、服务、运用一体化的建设路径探索,对项目设计、建设和运营等各环节建设具有实际意义。本文首先通过阐述城市发展历程及其过程中呈现的问题提出建设智慧城市的必要性和研究智慧时空云平台的实际意义。其次本文介绍了国内外智慧