在分层架构下基于文本交互表示的自动文本分类研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:wqvb1221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在大数据牵引的信息时代,随着军事信息获取和分析手段的多样化和精细化,虽然为作战人员带来了磅礴的信息资源,但也造成了严重的信息负担。如何快速准确的从海量信息中抽取出有用的知识,是提升军事信息系统服务的基础。而自动文本分类,通过对文本信息的学习,将文本划分为事先确定的某一类或某几类的过程,从而节省了用户的大量阅读时间,实现信息的有效获取。本文旨在研究自然语言处理领域中的文本表示,通过深度学习的方法,实现计算机对文本信息的快速准确的归纳和整理。研究文本表示并应用于自动文本分类,能够满足用户的信息需求,提高信息系统的精准服务水平。本文重点研究自动文本分类问题,主要完成了以下几个方面的工作:(1)提出了在分层架构下的神经网络分类模型本文基于文本的分层架构,将文本的分层架构作为文本的先验知识,建立了分层神经网络分类模型的总体框架。通过比较有无分层架构模型间的算法复杂度差异,发现分层架构的添加不会引起模型算法复杂度的增加,反而在某些特定的网络结构,会大幅降低复杂度。而且在公开数据集上,分层架构下的神经网络分类模型能够明显提升文本分类性能。特别地,随着文本长度的增加,性能改善的幅度更加明显。(2)提出了基于自交互注意力机制的文本分类模型本文发现在文本表示中标准的注意力机制需要借助外部的先验知识作为背景,不能普遍适用于此。因此,本文将标准的注意力机制改进为自交互注意力机制(TextSAM)。并根据不同的交互信息聚合策略,相应提出了TextSAMAVE,TextSAMMAX和TextSAMATT模型。它通过枚举,将文本中各个成分都作为注意力机制中的背景知识,不仅深化了文本中各成分间的相互作用,而且减少了需要外部知识的麻烦。通过在公开数据集上的分析,发现含自交互注意力机制的文本分类模型可以明显提升文本分类的精度,并且对于短文本有更加显著的改善幅度。(3)提出了基于句子各成分交互表示的句子分类模型本文建立在前文提出的交互概念基础上,将句子的语法生成树与词交互表示相结合。根据模型构建的不同角度,提出了两种不同层次的交互表示词嵌套,也就是,一种局部交互表示(LIR)和一种全局交互表示(GIR)。并结合这两种表示产生了一种混合交互表示,即HIR。通过在公开数据集上的分析,发现含有文本交互表示的文本分类模型的分类性能优于当前先进的文本分类模型。特别地,通过句子长度的分析,发现短文本更加受益于文本的交互表示。
其他文献
四足机器人依靠着腿部关节的灵活运动,能够从容面对多种多样的地理环境,完成许多轮式或履带式机器人无法执行的任务,如在山地丘陵等地区背负物资。快速灵活的机器人有着节省
干细胞是生命体的起源细胞,具有自我更新能力和多向分化潜能,可以分化为生命体的多种组织细胞,具有重要的研究价值。目前,国内外学者对干细胞展开了大量的研究工作并取得了丰
近年Z市城镇化进程不断加快,城市交通拥堵压力增大,Z市政府推进实施了城乡公交一体化改革。A公交公司作为Z市城区公交的唯一运营方,成为城乡公交一体化的实施主体。票价收入
随着人类社会进入移动互联网的新时代,基于地理位置信息的相关服务也迅速的发展起来。目前人们已经不仅仅满足于室外环境下的位置信息服务,在室内环境下的人员和设备定位等服
医学图像是一类被广泛应用于临床诊断的数字图像,但医学图像具有分辨率低,不同器官组织分界模糊的特点。近年来,针对医学图像的自动语义理解研究已经成为了一个焦点。目标检
随着高性能计算设备的不断升级,大数据时代到来,人工智能领域获得了长足发展,其中深度学习技术已经成为当前的研究热点并获得了广泛的应用,已经成为计算机视觉领域主流算法。
立体匹配是计算机视觉领域中的核心问题之一,它主要研究如何从不同视角的两幅图像中获取像素间的对应关系,即视差。近年来,立体匹配的研究取得了巨大的发展和进步,立体匹配技
金属有机框架(metal-organic frameworks,MOFs)是由金属离子或金属簇与有机配体形成的具有规则结构的多孔晶态材料,广泛用于气体吸附和分离、化学传感、光学材料以及多相催化等
随着车联网(Internet of Vehicles,Io V)技术的普及,车辆的数量和车辆产生的数据量日益增加,由于车辆自身的计算资源和电池容量存在上限,在车辆本地执行任务无法满足低时延和
森林分布极为广泛并且地形复杂多样,以传统方法对森林结构参数进行调查,需要耗费大量的人力、物力和财力。无人机和计算机视觉技术的快速发展,使得快捷、较低成本、较高精度