【摘 要】
:
深度学习给物体的识别和检测带去了重大进展,但它们的本质只是将视觉信息和有限的语言符号进行关联。本文将它们的目标向更广义的智能推进一步,通过视觉信息和任意语言描述的关联,使得智能体能像人类一样理解对物体的指示说明,从而能在视觉感知图像中,唯一定位出符合语言指令的目标区域,这个任务叫做视觉依据。本任务的输入为图像和文本,输出为目标物体的占据区域,属于视觉和语言的交叉领域。由于认知功能的复杂性,本文采用
论文部分内容阅读
深度学习给物体的识别和检测带去了重大进展,但它们的本质只是将视觉信息和有限的语言符号进行关联。本文将它们的目标向更广义的智能推进一步,通过视觉信息和任意语言描述的关联,使得智能体能像人类一样理解对物体的指示说明,从而能在视觉感知图像中,唯一定位出符合语言指令的目标区域,这个任务叫做视觉依据。本任务的输入为图像和文本,输出为目标物体的占据区域,属于视觉和语言的交叉领域。由于认知功能的复杂性,本文采用基于深度神经网络的模型,通过对大量数据样本的学习,使得模型的预测输出能够逐渐逼近真实观测。网络模型主要由三个部分组成,其中,视觉网络从图像输入中学习到视觉特征,语言网络从文本输入中学习到语言特征,关联网络计算两种特征的相关性,从而在图像中定位出和描述最匹配的物体区域。基于上述框架,本文具体分析了基于前向卷积网络的视觉特征应用到本任务时的语义缺失问题和分辨率低下问题,并对应设计了一种自顶向下的特征融合方案,融合得到的视觉特征更全面准确地表达了视觉信息,促进了和语言信息的关联;另一方面,本文通过注意力机制建模了文本中词语的背景信息,从而消除了语言在形式上的歧义,得到了随上下文自适应变化的语言特征,促进了和视觉信息的关联。实验结果表明了以上两种特征表示的有效性。关联网络的设计是本文算法的最重要的贡献,为了说明它的必要性,本文首先分析了整体关联法的不足,尤其是其对背景信息的低效使用,并说明了现有模块化关联算法在应对语言形式变化时的局限性,然后提出了一种自适应模块关联法,关联网络由内部模块、近邻模块、全局模块三个并行部分组成,分别从物体自身属性、物体和近邻物体关系、物体和全局的关系三方面对语言和视觉信息进行关联,并且模块的权重能随着语言形式的变化而自适应调整,不再需要限制语言的结构形式,该分解方法降低了语义的复杂度,同时提高了对背景图像的利用能力,从而提升了整体的关联准确度,实验结果表明了其优越性。
其他文献
个人健康记录(Personal Health Records,简称PHRs)是现代信息技术在医疗健康中的应用。相对于传统的纸质管理方式,个人健康记录不仅有利于信息的保存,更便于随时随地的查看,
报文分类是许多网络核心技术的基础,其分类速度的快慢将直接影响到下一代网络的发展。目前,行业内实现报文分类的主流硬件方法是使用三态内容寻址存储器(TCAM,Ternary Content-Addressable Memory)。TCAM具有三态特性,存储分类规则的固定数值与前缀数值时有很大的优势,但无法直接存储范围数值,即使将其转变成固定数值或前缀数值进行存储,也会占用过多条目,造成范围扩展,使TC
共轭1,3-丁二炔是一类重要的有机化合物,主要通过端基炔的Glaser自偶联反应合成,即以铜盐、碱助剂或配体组成的热催化体系。鉴于多相催化剂易分离、可重复使用等优点,近年来负载型铜催化剂用于热催化合成1,3-丁二炔成为研究重点。由于纳米铜颗粒(CuNPs)具有可见光诱导的局域表面等离子体共振(LSPR)效应,负载型纳米铜催化剂逐渐被用于光催化合成领域,但由于CuNPs易被氧化和流失等问题,目前未见
微悬臂梁是MEMS器件中最基本也是最典型的微结构,常用于微传感器。微悬臂梁具有灵敏度高、体积小、成本低等优点,在微小粒子及细胞检测等微生化领域受到了越来越多的关注。本文以内嵌沟道式微悬臂梁传感器为研究对象,根据内嵌沟道式的两种工作模式,理论分析并数值仿真微悬臂梁在不同工作模式下受不同载荷时的弯曲挠度变化和共振频率变化。通过检测微悬臂梁的振动频率的偏移,可以定量地分析计算微流体的质量,进而得到微流体
随着医药行业的快速发展,我国药品研发、生产、流通、使用领域的安全问题越来越突出,2018年吉林发生的长春长生疫苗事件便是突出反映药品安全问题的重大事件。究其原因,既有药品行业自身的问题,也与国家监管不力密不可分。为充分保障广大民众的身体健康和生命安全,必须加大药品生产经营企业的社会责任,加强对药品行业的监管。药品安全监管是一项系统工程,需要全社会共同参与。相对其它监管而言,行政监管具有独特地位和作
本文研究了 m(m≥2)台并行机、带有公共交付期的最大化(权重)加工收益调度问题。该问题被认为是NP-hard,也就是说,除非P=NP,否则无法在多项式时间内找到一个精确算法来求解该问题。并行机是指系统内具有多台速度相同的处理机,每个工件只需在任意一台机器上加工即可;公共交付期是指所有工件具有相同的交付期;加工收益是指工件在交付期之前所完成的工作量。本文研究了该调度问题无权重和带权重模型,并分别提
中小微企业的数量不断增长,已成为推动我国经济发展的重要力量。然而融资难一直是困扰中小微企业发展的一大问题。随着2005年商业性小额贷款机构开始出现以来,小额信贷行业得到了飞快的发展,为我国金融市场注入了新的活力,为中小微企业第一时间提供资金支持,扩大了企业融资的渠道。然而,小额贷款企业作为新型的金融机构,并未获得法律层面明确的金融地位,不断发展的同时也面临着诸多的风险。所以,在当今经济一体化进程不
时域有限差分法(FDTD,Finite Difference Time Domain)是一种常用的电磁计算数值方法,它将目标空间划分成数量非常多的网格块,利用蛙跳式算法对空间内的电磁场进行交替迭代计算。FDTD计算方法的特殊性使得它拥有直观易懂、可并行性高、应用性广泛等特点,因此它被应用到计算电磁学的各个工程领域中,随着计算机硬件尤其是图形处理器(GPU,Graphics Processing U
受口译即时性的限制,口译员在进行英汉同声传译时需要尽快地输出。在此压力下,口译员容易受源语约束,从而影响译文质量。法国释意学派理论提出的“脱离源语语言外壳”的方法,
《汉语学习》(Studies in the Chinese Language),是由旧中国海关总税务司署汉文秘书科汉语学习股中外职员集体编写、海关造册处1931年出版,供海关外籍职员汉语学习与考试的统编系列教材。该书共三册,其中A、B册为海关工作商务公文,C册为海关工作生活口语交际。本文从二语学习的角度,以《汉语学习》为研究对象,对该书的成书背景、体例、选材、词汇、口语以及商务教学等方面进行分析,