面向文本分类任务的深度学习方法研究

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:szweixian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类是自然语言处理领域中最重要的任务之一。在信息爆炸的大数据时代下,海量文本信息源源不断地产生并推送到人们手中,但人们通常只需要自己感兴趣的信息,因此,对海量文本信息做好分类管理至关重要。本文着重以深度学习方法为基础,围绕当前文本分类模型存在语义信息、标签信息以及对中文文本表示上考虑不全面的问题展开研究,面向不同类型的文本分类任务构建高效且适用的分类模型,以期提升文本分类精度。本文的具体创新与工作内容如下:(1)提出一种融合实体信息的循环神经网络文本分类模型,改进了现有单标签分类模型未能充分考虑实体信息和上下文语义信息而无法进一步丰富文本语义表示、突出文本内容特征的缺陷。模型首先提取文本的实体信息,通过预训练好的实体表示与文本表示做注意力计算得到与文本最相关且含义清晰的实体表示,然后利用双向循环神经网络充分提取文本的上下文语义特征,再通过注意力机制得到经权重分配后的上下文表示,接着将两者输出做拼接,强化对于实体信息的关注,突出文本的内容特征,最后送入Highway网络优化特征,极大丰富了文本的语义表示。在公开数据集上的实验结果表明,所提模型相比基线模型在准确度上均有提高,消融实验也表明了模型的合理性和有效性。(2)提出一种基于注意力机制和卷积神经网络的文本分类模型,改进了现有多标签分类模型未能充分结合文本与标签的相互关系以及对语义信息提取不充分的缺陷。模型首先引入位置编码强调文本词语的全局顺序关系,然后使用卷积神经网络提取文本语义的局部信息,接着利用多头注意力机制充分学习文本词语之间的全局依赖关系,再通过交互注意力计算得到结合文本内容后的标签表示,最后使用自适应融合策略输出全面的文本表示进行分类。在公开数据集上的实验结果表明,所提模型相比基线模型在P@K和nDCG@K两个指标上均有提高,消融实验也表明了模型的合理性和有效性。(3)提出一种粒度融合的文本表示方法,改进了现有中文词嵌入表示存在语义不清和语义偏斜的情况,提升上述两种模型在中文文本分类上的分类效果。它通过将词嵌入和字符嵌入进行融合形成新的词嵌入表示,丰富了词嵌入的语义信息,然后将它作为模型的输入。在中文数据集上的实验结果表明,经粒度融合后的文本表示能够进一步帮助模型提升分类效果。
其他文献
在海气相互作用中,湍流热通量是一个非常重要的物理量,它反映了海洋和大气之间的热量和水汽的交换。然而,由于缺乏湍流热通量长期观测资料,北太平洋年代际尺度的海气关系的研究面临很大困难。本文根据国际综合海洋大气数据集-国际海洋气象档案(International Comprehensive Ocean-Atmosphere Data Set-International Maritime Meteorol
由热带扰动和弱冷空气引发的秋汛期特大暴雨是造成海南岛大范围洪涝的主要灾害性天气之一。2000年、2008年和2010年10月份海南岛东半部的三次重大洪涝灾害就是由该类暴雨引发的。为了系统研究此类暴雨形成、加强和维持的机制,增进对热带地区暴雨的认识,本文利用海南省高空、地面观测资料、卫星、多普勒雷达以及NCEP、ECMWF ERA5再分析资料,统计分析了热带扰动和弱冷空气引发的海南岛秋汛期特大暴雨的
由卫星资料反演的云顶高度和云移动速度是天气学、气候学的重要科学资料,然而,目前云顶高度和云移动速度解算的精度尚存在较多问题,限制了云顶高度和云移动速度参数的实际应用,如何提高云顶高度和云移动速度已成为卫星气象学的一项待解难题。准确的云顶高度和云移动速度,将会大大提高天气分析和数值预报的质量,具有重要的科学意义。气象卫星立体像对云顶高度和云移动速度解算方法是一种全新的、高精度的云几何参数解算方法。目
地表发射率在卫星资料的数值模式同化中起着重要作用。此外,地表发射率也可以用于监测土壤水分和土地利用/土地覆盖的变化。相对于其他波段的电磁波而言,微波对云层独特的穿透性使得微波资料在有云情况下也可以得到广泛应用。由于地表覆盖的多样性和陆地物理特性的复杂性,对陆面微波地表发射率的理解较洋面的微波发射率少。地表发射率的准确性最大限度地减少了气温、水汽和地表温度等大气、地表参数反演的误差。目前,正需要发展
本文利用中尺度WRF模式对2005年台风“麦莎”(Matsa)进行了精细的数值模拟。通过与实况资料的对比验证,此次模拟结果很好的再现了台风“麦莎”从登陆前最大强度时刻到登陆后一直北上进入山东半岛的过程。根据台风登陆前后下垫面的不同,分别推导出两组大气运动方程组,利用模式输出资料,研究台风登陆前的正压波动结构的特征及登陆后摩擦对正压波动特征的影响。台风登陆前,对推导出的柱坐标系下(不考虑地形和摩擦)
本文用NCEP/NCAR再分析资料、中国160站资料、CMAP和ERSST资料,通过理论分析和统计动力诊断方法,围绕“副热带西风急流异常的气候效应及成因”这一主题,以两种副热带西风急流指数的定义和计算为切入点,分析了它们的气候及异常特征,发现它们存在明显的季节变化和年际变化,与北半球区域气候异常关系密切。在此基础上,重点讨论了副热带西风急流与角动量输送、热带SST、平均经圈环流之间的联系,揭示了急
热带大气低频振荡是热带地区一个十分重要的大气信号,其活动及异常对热带地区乃至全球的天气和气候异常都具有重要影响。本文利用1980~2009年NCEP/NCAR逐日再分析资料和由美国国家海洋及大气管理局(NOAA)提供的OLR资料以及1981~2009年第二代最优插值的全球海表温度(SST)资料,采用功率谱分析、小波分析、时-空谱分析、Wheeler-Kiladis时--空交叉谱分析、时滞相关分析、
在室外卫星信号稳定的环境下,无人机通过使用GNSS定位系统可以执行物资配送、街头巡逻等自主飞行任务。但是在一些室内或者周围建筑较为复杂的环境下,无人机的飞行主要还是依靠专业的飞手进行操作。因此,设计出在多种环境中均能实现定点悬停以及自主飞行的无人机控制系统可以满足无人机发展的需求,这对提高无人机飞行的安全性以及应用领域的拓展具有重要意义。本文对实验室自主研发的飞控系统进行改进,设计一种基于多传感器
国家管辖范围以外区域海洋生物多样性(BBNJ)养护和可持续利用的国际谈判行将进入政府间谈判第四次大会,这也是各国预计将达成协定的关键阶段。各方在BBNJ国际协定谈判中尚面临一些难以解决的重大挑战,能否解决这些挑战将直接决定BBNJ国际协定能否达成。作为人类命运共同体在海洋领域具体体现的海洋命运共同体理念,可以引导BBNJ国际协定谈判并克服目前谈判中所面临的主要挑战。海洋命运共同体理念的内涵及其海洋
以面向雷电预报的雷达、卫星遥感资料同化及其应用为研究目的,利用NCEP资料、新一代多普勒雷达网、FY2C气象卫星、闪电定位仪网、自动气象站等观测资料的诊断、同化模拟以及理论分析等方法,对气象遥感资料的同化设计及其在雷暴天气条件下雷电预测方面的应用进行了综合研究和初步分析。主要得到了以下结论:1)雷达资料间接同化方面:以夏季暴雨为研究对象,用MUSCAT技术做双多普勒雷达风场反演资料的间接同化,与非