【摘 要】
:
文本表示是自然语言处理最为核心的研究方向之一,近年来随着机器学习的发展,文本表示也从最初的统计学方式开始与机器学习相结合。人类对于文本的理解取决于对世界的认知以及大脑复杂的逻辑处理,而计算机则取决于文本在计算机内部存储的二进制表示。如何将文本表示成计算机更易于理解的形式成为了目前的研究热点。本文的核心工作是针对中文文本构建文本表示,并应用在新闻文本分类任务中。如何将中文字符具有含义且包含情感考虑进
论文部分内容阅读
文本表示是自然语言处理最为核心的研究方向之一,近年来随着机器学习的发展,文本表示也从最初的统计学方式开始与机器学习相结合。人类对于文本的理解取决于对世界的认知以及大脑复杂的逻辑处理,而计算机则取决于文本在计算机内部存储的二进制表示。如何将文本表示成计算机更易于理解的形式成为了目前的研究热点。本文的核心工作是针对中文文本构建文本表示,并应用在新闻文本分类任务中。如何将中文字符具有含义且包含情感考虑进文本表示是本文的主要研究内容;如何将文本的序列形式考虑进文本表示是本文的主要研究内容;如何将文本的上下文语境、语义考虑进文本表示是本文的主要研究内容。基于以上内容本文的具体创新与工作如下:(1)提出一种基于粒度融合的文本表示方法,将预训练词向量与随机初始化字符向量在向量表示空间中融合,通过字符向量将词语中的语义与情感加强,通过词向量弥补字符向量无法有效表示实体的缺陷。将所提方法与Text CNN结合构建模型,在公开数据集上进行实验,与多种其他先进算法对比。实验结果表明粒度融合的文本表示方法能够有效的将字符与词语两种粒度的优势融合,构建更加有效的文本表示。(2)引入位置编码、多头自注意力机制、双向长短时记忆神经网络三种方法,并将三种方法融合构建文本序列表示方法。通过位置编码为文本中的词语赋予位置信息;通过多头自注意力机制为文本中词语之间互相关注程度赋予权重;通过双向长短时记忆神经网络提取文本上下文语境、语义信息。将三种方法融合并结合Text CNN模型,在公开数据集上进行实验,与多种其他先进算法对比。实验结果表明文本序列表示方法能够有效的将文本中的序列信息进行表示,对文本的表示进行增强。(3)提出一种基于GMSC-Text CNN的新闻分类模型,将上述几种文本表示方法与Text CNN结合,应用在今日头条的短文本新闻标题分类中。GMSC-Text CNN能够在文本构成时融入多种信息,增强文本表示中的有效特征,通过实验表明GMSC-Text CNN能较大的提升Text CNN在短文本中的分类能力。
其他文献
探讨坡面种植土壤水分的分布及变化特征对合理种植、充分利用水资源等具有重要意义。利用收集的紫薯种植期间气象数据和不同地形因子下的五层土壤体积含水量数据,分别分析了紫薯发根返青期、分支结薯期、茎叶盛长与薯块膨大期以及薯块迅速膨大与茎叶渐衰期四个生育期的天气特征以及不同地形因子下五层土壤体积含水量动态特征。同时以去趋势波动分析法(DFA,Detrended Fluctuation Analysis)分别
空气质量数值模式预报是通过气象模型来模拟大气运转的过程,分析大气中各种元素的相互作用来预测各种污染物的浓度,从而实现空气质量的预报。由于大气混沌特性、初始气象场的不确定性及模型自身误差的限制,使得数值模式预报中往往存在着一定的偏差。多模式集成技术是解决数值预报不确定问题的一种高效方法,它能够综合利用各环境气象模式的优点来减少预报误差。本论文在探讨分析了京津冀区域空气污染形势的基础上,研究了基于神经
近年来,随着气象探测技术和地理信息科学(GIS)的蓬勃发展,气象领域的分析与研究也在不断进步,强对流天气的监测和预警越来越及时准确。伴随着计算机技术与网络技术的飞速发展,Web可视化应用逐渐从二维向三维过渡,如何快速高效的完成基于Web的三维可视化研究已经成为一个研究热点。基于Web的雷达数据可视化有利于气象雷达数据的分析与研究共享,从而增强和促进各种气象应用程序发展。目前为止,由于技术和软硬件上
稻田土壤可进行甲烷氧化细菌介导的甲烷好氧氧化作用,是甲烷消减重要过程。氮是作物生长过程中所必需的大量元素,是水稻稳产增产的主要限制因素之一;生物固氮是稻田土壤中活性氮输入的重要来源之一。现已发现一些甲烷氧化菌具有固氮基因,可能会进行生物固氮,但是具体机理及影响因素尚不清楚。一般认为,只有在无氮或氮极度缺乏条件下,土壤微生物才启动固氮功能。因此,通过测定不同土壤样品的甲烷氧化速率和氮矿化速率,筛选出
海冰是目前极地研究的热点话题,融池作为海冰中重要的参数它对海冰的变化有着显著的影响。因此本文利用北极融池、海冰的高分辨率实测影像结合中分辨率成像光谱仪(Moderate-resolution Imaging Spectroradiometer,MODIS)反射率产品反演北极融池与海冰覆盖率。分析了融池与海冰覆盖率的时空变化特征及其与9月海冰范围之间的关系。使用海冰和融池的现场观测影像提取了2786
随着无线通信行业的发展波束赋形技术得到越来越多的关注。波束赋形技术可以广泛地应用在雷达、资源勘探、全球卫星定位系统以及基站天线。本文以最大功率传输效率为研究方法,通过引入二次约束二次优化来对天线的远场方向图进行赋形。通过引入辅助接收天线,与发射阵列天线组成一个远场传输系统,计算该传输系统的散射系数来获得设计所需的幅值相位激励。由于该方法考虑到阵列单元间的耦合以及包含了复杂环境的阵列散射系数,该方法
近年来,可穿戴设备的飞速发展和进步有目共睹,在健康辅助以及军事装备等领域中,可穿戴技术得到了广泛的应用。随着市场需求量的日益剧增,各种各样的可穿戴设备相继出现在市场和人们的日常生活中,常见的有可穿戴智能眼镜、手表、手环等。而作为可穿戴设备的重要组成部分,可穿戴天线的研究吸引了产学研界的广泛关注。常见的可穿戴天线结构有微带天线、倒F天线、纽扣天线等。与手环等一类的可穿戴设备不同,设计在服装上的可穿戴
2013年以来,我国中东部地区冬季伴随着高PM2.5浓度的空气污染事件频发,该地区冬季的空气污染状况及其气象成因越来越成为人们普遍关注的热点话题。基于中国环境监测中心提供的PM2.5浓度数据、中国气象局地面与高空常规观测资料以及欧洲中心的再分析资料,以PM2.5浓度和能见度作为环境空气质量的代表,选择一月代表冬季,探究了2013至2019年我国中东部地区冬季空气污染的成因。主要研究内容和结论如下:
语音情感识别作为目前模式识别、信号处理等领域的研究方向,其在人机交互中的应用逐渐成为人们关注的热点。所谓语音情感识别,即使用一定的算法对语音信号进行情感分类,如将语音信号划分为“高兴”、“悲伤”“厌恶”等情感类别中的某一种。在语音情感识别的研究历史中,已出现大量有效的方法来解决语音情感识别中出现的多种问题,但大多方法使用单一的数据库来研究。然而,在实际的情感识别应用领域,由于数据采集环境、设备等的