【摘 要】
:
随着大数据时代互联网中数据体量和规模的飞速增长,我们已可以快速地从各种工具中轻松地获取信息。但是,大多数信息冗杂且无关紧要,用户要花费大量时间剔除无用信息后才能真正的获取到目标内容。所以,使用能够自动提取重要信息的文本处理技术就变得非常重要。本文着眼于文本关系分类和文本生成。关系分类旨在将给定句子中的实体对分类到某个类别中,而文本生成旨在对文本进行分析、内容总结和生成。本文对深度学习和注意力机制在
论文部分内容阅读
随着大数据时代互联网中数据体量和规模的飞速增长,我们已可以快速地从各种工具中轻松地获取信息。但是,大多数信息冗杂且无关紧要,用户要花费大量时间剔除无用信息后才能真正的获取到目标内容。所以,使用能够自动提取重要信息的文本处理技术就变得非常重要。本文着眼于文本关系分类和文本生成。关系分类旨在将给定句子中的实体对分类到某个类别中,而文本生成旨在对文本进行分析、内容总结和生成。本文对深度学习和注意力机制在关系分类和文本生成中的应用展开研究,提出基于改进的注意力网络的关系分类模型和文本生成模型,主要包括三部分:(1)对于关系分类,目前最新的基于深度学习的方法仍存在缺陷,即无法区分文本在不同上下文语境中的语义,以及不能利用实体对自身所具有的潜在类型特征。本文提出的关系分类模型主要由上下文编码器和实体感知注意力网络组成:通过自注意力机制学习单词在不同上下文环境中的语义;通过实体选择来决定实体对之间的互相决策重要程度,并将实体对和它们的潜在类型作为模型的辅助信息,充分利用实体对的隐藏特征。(2)对于文本生成,本文重点关注数据到文本生成任务,即为结构化的数据生成描述性文本。目前大部分最新的方法都采用神经网络语言模型,基于注意力机制来学习输出和输入之间的映射关系。但普通的注意力网络在处理长文本时注意力会逐渐减弱,并且不能利用文本中的结构信息。本文提出的文本生成模型主要由字段-内容选择编码器和描述性解码器组成。将文本的结构信息融合到其特征表示中,并利用不同记录对之间可以互相决定重要性的特点,提出采用了门控机制的内容选择器。在解码阶段,利用内容选择器输出的语义向量来强化注意力机制对输出文本和记录对之间的映射能力,并采用拷贝机制来解决稀有词的问题。(3)基于文本生成模型构建了一个面向气象报道和体育赛事的新闻播报系统。文本生成模型将输入的天气和体育比赛数据转换为直观的文本,提供给用户;管理员负责对系统进行维护,包括上传数据、修改文本内容等。对用户来说,该系统可以快速且方便的获取到所需的新闻内容,对管理员来说,该系统帮助加快了工作流程。
其他文献
近年来,量子精密测量作为量子力学的应用之一在测量空间分辨率、灵敏度等方面逐渐超越了传统的测试技术。芯片的集成度和复杂度提高,传统测试技术遇到瓶颈,高分辨电磁场量子精密测量在芯片设计、芯片电磁兼容测试和芯片失效分析上的价值越来越受到重视,基于金刚石NV(Nitrogen-Vacancy)色心的量子精密测量体系因其用户鲁棒性和实用性,受到广泛关注。金刚石NV色心是金刚石中的一种发光缺陷,其具有较长的电
人类的情感是十分丰富的,利用文本数据进行情感分析的研究已经无法满足智能化时代情感分析的需求了,需要引入更多的模态来补充情感信息。因此多模态的情感分析中对每种模态的情感信息的获取成为了一个重要研究。同时,多模态的引入会导致情感分析的效率和资源消耗得到增加,故对情感分析的耗时和内存占用量进行优化也是一个重要的研究方向。本文针对情感分析的效率优化以及多模态情感分析不同模态的信息完整获取展开研究,主要研究
传统的压电式能量收集技术,存在收集方向单一,谐振频率高,转换效率低,输出电压和功率过低的问题。因此本文针对以上问题,提出了一种直角螺旋压电能量收集器和一种圆弧螺旋压电能量收集器。并对这两种螺旋式压电能量收集器进行了数值计算、模型仿真和测试分析。与传统的能量收集器相比,其转换效率,输出电压和功率均可以得到明显改善。本文主要的研究内容如下:(1)介绍了压电能量收集器是把压电能量收集理论作为基础的,运用
量子行走是经典随机行走在量子世界的对应物。基于相干叠加性和量子干涉,量子行走用于实现通用量子计算机、量子通信以及量子模拟。本论文主要讨论离散时间量子行走的基本性质,通过引入量子控制操作实现不同性质行走的相干叠加。通过光学环路结构实现能够精确调控高维量子态的可编程量子行走。主要工作概括如下。量子行走与经典随机行走之间的转变这一研究内容有助于理解量子行走的计算特性,以及与这两种行走相关的动力学。已有的
图像识别技术作为人工智能领域的重要分支,在工农业和公共安全等多个领域被广泛应用。为保证安全生产,降低因作业人员未佩戴安全帽而产生的事故发生率,将图像识别技术应用到安全帽佩戴的实时检查并提高识别准确率,具有显著的工程价值。本文使用卷积神经网络对工作人员是否佩戴安全帽进行检测,主要工作如下:(1)针对在安全帽佩戴检测过程中存在目标较小,检测困难的问题,本文提出了一种基于ASPP(空洞空间金字塔池化)与
移动互联网技术与时空定位技术的快速发展推动了基于位置服务应用的普及。用户基于身份信息与位置信息生成位置证明,并以其为凭证获取位置服务,是当前保证位置服务可靠性的主要方法。传统的位置证明系统采用基于基础设施的位置证明方法,并将位置证明信息在中心化数据库中存储。但是这种方法存在位置证明效率受限于基础设施附近用户分布,以及中心化数据库模式的单点故障问题。本文提出了基于基础设施与附近用户混合的位置证明方法
阵列天线在移动通信、雷达、卫星通信等领域中有着广泛的应用,其中波束赋形是阵列天线的关键技术之一,研究波束赋形技术具有十分重要的意义。近年来,通过智能优化算法针对阵列天线所需的方向图快速实现波束赋形,已经成为研究的热点和重点。本文利用改进粒子群算法实现阵列天线的波束赋形。针对粒子群算法后期搜索能力弱这一问题,本文引入自适应惯性权重以及将粒子群算法与蝴蝶算法相结合这两种思路分别组成了两种不同的改进粒子
Pull Request是GitHub中代码贡献的一种重要方法,当开发人员希望将其代码更改从本地机器合并到存储项目中所有源代码的主存储库时,将提交Pull Request。在将代码更改合并到主存储库之前,开发人员必须请求权限。如果它们的源代码被允许合并,则Pull Request状态显示为被接受。另一方面,如果不允许合并它们的源代码,则Pull Request状态将显示为被拒绝。由于多个因素,例如
频繁子图挖掘是频繁模式挖掘的一种具体形式,广泛应用于社会网络分析、生物技术、推荐系统等领域。然而,图数据集中可能包含一些敏感的信息,在挖掘过程中或发布频繁子图信息时都可能造成隐私的泄露。差分隐私不依赖于第三方所掌握的背景知识,具有严格的理论定义和可量化的隐私保护手段,通过调整隐私预算的大小来控制隐私保护的级别,可以应用于数据挖掘领域。差分隐私技术可以保证查询结果不会因为数据集中任一记录的改变而受到
随着计算机技术与人工智能的快速发展,人脸表情识别技术成为了当前的研究热点,在人机交互、安全驾驶等多个领域有着广泛的应用前景。传统的表情识别技术不仅设计困难,而且不能充分提取表情特征,导致表情识别效果不佳。目前基于深度学习的表情识别技术成为主流方法,但现在的卷积神经网络模型对硬件要求高、训练耗时过长,导致表情识别的实时性难以得到保障,无法部署到低算力的设备上。为了进一步提高表情识别算法的准确率和鲁棒