【摘 要】
:
图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术,包括整体架构、学习策略、特征映射、语言模型和注意机制.然后,按照发展进程将现有的图像描述生成方法分为四大类,即基于模板的方法、基于检索的方法
【机 构】
:
广西多源信息挖掘与安全重点实验室(广西师范大学),西北师范大学计算机科学与工程学院,中国科学院智能信息处理重点实验室(中国科学院计算技术研究所)
【基金项目】
:
国家自然科学基金项目(61966004,61663004,61866004,61762078),广西自然科学基金项目(2019GXNSFDA245018,2018GXNSFDA281009,2017GXNSFAA198365)。
论文部分内容阅读
图像描述生成结合了计算机视觉和自然语言处理2个研究领域,不仅要求完备的图像语义理解,还要求复杂的自然语言表达,是进一步研究符合人类感知的视觉智能的关键任务.对图像描述生成的研究进展做了回顾.首先,归纳分析了当前基于深度学习的图像描述生成方法涉及的5个关键技术,包括整体架构、学习策略、特征映射、语言模型和注意机制.然后,按照发展进程将现有的图像描述生成方法分为四大类,即基于模板的方法、基于检索的方法、基于编码器-解码器架构的方法和基于复合架构的方法,并阐述了各类方法的基本概念、代表性方法和研究现状,重
其他文献
基于文档的对话是目前对话领域一个新兴的热点任务.与以往的任务不同,其需要将对话信息和文档信息综合进行考虑.然而,先前的工作着重考虑二者之间的关系,却忽略了对话信息中的句子对回复生成的作用具有差异性.针对这一问题,提出了一种新的辩证看待对话历史的方法,在编码阶段讨论利用历史和忽略历史2种情况进行语义信息的建模,并采用辩证整合的方式进行分支信息的汇总.由此避免了在历史信息与当前对话不相关时,其作为噪声被引入进而损害模型性能,同时也强化了当前对话对信息筛选的指导作用.实验结果表明,该模型与现有基线模型相比,能够
量子游走是量子计算的重要模型,而多硬币量子游走模型由于在量子通讯协议中表现突出也越来越受到人们的关注.量子相干不仅可以刻画量子态的特点,也可以反映量子演化过程的性质.主要对一维圆上两硬币量子游走模型的量子相干性进行了分析.一方面,讨论了初始量子态和硬币算子的选取对量子相干的影响.当硬币算子为Hadamard算子且初态只要在位置子空间上是均衡叠加态,整个量子游走演化过程是具有周期性的,且量子相干仅依赖于步数和圆上顶点的个数;当初始态是均衡叠加态而对硬币算子没有任何限制时,量子相干的演化也极具规律性.另一方面
互联网时代,数据呈爆炸式增长,前所未有的数据量远远超过受众的接收和处理能力,因此,从海量复杂数据中有效获取关键性有用信息成为必须解决的问题.面对信息过载问题,人们迫切需要一种高效的信息过滤系统,“推荐系统”应运而生.在现实的推荐场景中,用户给予项目的评分或者选择项目的频次是一个典型的长尾现象.事实上,长尾现象的深入分析,不仅有助于挖掘用户的个性化偏好,更有助于电商场景中相关利益主体的业绩提升.因此,长尾推荐研究日益受到重视.针对长尾推荐的可解释性问题,提出了基于3因素概率图模型的长尾推荐方法.面对长尾推荐
Android系统是市场占有率最高的移动端操作系统,然而Android系统上的恶意应用种类和数量疯狂增长,对用户构成极大的威胁,因此对Android系统恶意软件检测方法的研究具有非常重要的意义。分析Android系统的安全机制,介绍Android恶意软件的分类,总结恶意软件的攻击技术,研究目前的检测方法,比较各类方法的典型系统,列举当前主流厂商的安全软件技术,分析当前研究中存在的问题,对未来恶意软件的检测方向进行展望。
von Neumann互信息是Shannon互信息在量子信息中的推广,在量子信道容量中有非常好的应用.由于量子态的非对易性,许多经典信息论中的量化在量子信息中有完全不等价的推广定义.量子假设检验相对熵来自于假设检验问题,是量子信息处理中常用的基本量化之一.使用量子假设检验相对熵讨论量子互信息.首先讨论量子假设检验相对熵的一些基本性质,并给出该量化和其他量子广义熵之间的关系.然后结合相对熵的性质,给出量子假设检验互信息的定义,并讨论其性质,比如:数据处理不等式.通过互信息与条件熵之和重点讨论互信息的链式法则
图卷积神经网络是一种针对图结构数据的深度学习模型,由于具有强大的特征提取和表示学习能力,它也成为当前推荐系统研究的热门方法.以推荐系统中的评分预测为研究对象,通过分析指出了现有的基于图卷积神经网络的推荐模型存在2个方面的不足:图卷积层仅仅利用了1阶协同信号和未考虑用户观点的差异.为此,提出一种端到端的、基于增强图卷积神经网络的协同推荐模型.它采用一种增强的图卷积层,不仅聚合了2阶协同信号而且融合用户观点的影响,从而更合理地利用协同信号学习实体节点的嵌入表示,并通过堆叠多个图卷积层对其进行精化;最后,采用了
海量的在线面试视频数据为智能面试评价提供了重要的数据基础.随着目前全球疫情的蔓延,网络在线面试的需求程度上升,对智能面试评价工具的需求也随之上升.结构化面试中,面试官需要依据评价标准,观察面试者所做的回答,并形成面试者人格特性、沟通技能以及领导力等方面的画像评估,以此判断面试者的特质是否与应聘职位相匹配.其中人格特性评估是公司间广泛使用的一种评估方法,因为人格特性影响着人们的语言表达、人际交往等多个方面,是辅助面试官决策该面试者是否符合其应聘岗位需求的重要参考.基于此,提出了基于循环神经网络长短期记忆(l
在移动边缘计算网络中,高效的计算迁移算法是移动边缘计算的重要问题之一.为了提高计算迁移算法性能,应用同类问题的相互转换性和最大化影响力模型,利用K-shell算法对边缘服务器进行等级划分,考虑边缘服务器负载过重问题,构建路径重叠(path overlap,PO)算法,引入通信质量、交互强度、列队处理能力等指标进行边缘服务器路径优化,将优化计算任务迁移路径问题转化为社会网络影响力最大化问题求解.基于K-shell影响力最大化思想,联合优化改进贪心与启发式算法,提出一种K-shell影响力最大化计算迁移(K-
数据库自然语言接口(natural language interface to database,NLIDB)能够凭借自然语言描述实现数据库查询操作,是促进用户无障碍地与数据库交互的重要工具.因为NLIDB具有较高的应用价值,近年来一直受到学术与商业领域的关注.目前成熟的NLIDB系统大部分基于经典自然语言处理方法,即通过指定的规则实现自然语言查询到结构化查询的转化.但是基于规则的方法仍然存在拓展性不强的缺陷.深度学习方法具有分布式表示和深层次抽象表示等优势,能深入挖掘自然语言中潜在的语义特征.因此近年来
关于域适应算法的研究显示了对抗性学习填补源域和目标域间差异的有效性,但仍存在其局限性,即仅从2个域抽取的样本不足以保证大部分潜在空间的域不变性.注意到胶囊网络(capsule network,CapsNet)在捕获样本的表征不变性上具有较强的能力,通过结合二者得到了一种新的域适应学习算法.首先,提出了胶囊层卷积算法,并结合残差结构,使得训练更深的胶囊网络成为可能.实验表明,这种新的胶囊网络架构能够在捕获浅层特征时取得更佳的效果.其次,传统的对抗判别域适应算法使用的卷积基容易不加分辨地模糊源域与目标域的界限