【摘 要】
:
随着移动互联网技术的快速发展以及智能通讯设备的大范围普及,人们可以随时随地收集和传播自己感兴趣的数据,全球数据规模呈现爆炸式增长。在数据迅猛增长的同时,数据的类型也呈现出多样化的趋势,图像、文本、视频、语音等多种模态的数据正以低廉的成本快速地产生,并迅速在网络上传播。大数据之所以能够在互联网平台上进行高效的信息传递,主要原因之一在于其中包含有多种不同模态的数据类型,这些多模态数据的相互对应,相互补
论文部分内容阅读
随着移动互联网技术的快速发展以及智能通讯设备的大范围普及,人们可以随时随地收集和传播自己感兴趣的数据,全球数据规模呈现爆炸式增长。在数据迅猛增长的同时,数据的类型也呈现出多样化的趋势,图像、文本、视频、语音等多种模态的数据正以低廉的成本快速地产生,并迅速在网络上传播。大数据之所以能够在互联网平台上进行高效的信息传递,主要原因之一在于其中包含有多种不同模态的数据类型,这些多模态数据的相互对应,相互补充,相互转换能够加速数据间信息的传输。为了帮助用户从日益增长的多模态数据中快捷精准地查询到有价值的数据信息,研究跨模态数据匹配和搜索具有十分重要的意义。图像和文本是多模态数据中的两类代表性数据模态形式。克服这两类不同模态数据间显著的模态异质性,并提取核心的语义特征进行跨模态的准确匹配,是图像-文本匹配领域当前研究的热点问题之一,而注意力机制在解决该问题上可以发挥重要作用。一方面,传统的图像特征表达学习容易捕获到许多与关联分析无关的冗余信息,需要使用上下文注意机制来学习具有判别性的视觉特征。另一方面,粗粒度匹配存在局部细节语义缺失,需要在粗粒度对齐的背景下使用局部跨模态注意机制额外建模细粒度对应关系。具体的研究内容如下:(1)针对图像-文本关联分析所需要的核心语义特征提取的困难,本文提出一种基于循环典型相关分析(Recurrent Canonical Correlation Analysis,RCCA)的图像-文本匹配方法,其中包含一个基于上下文注意的长短时记忆循环神经网络(Long Short-Term Memory Recurrent Neural Network,LSTM-RNN)用于动态图像表示学习,该网络使用上下文注意机制选择性地关注图像中的显著性内容,之后融合LSTM-RNN前几个时间步上关注的内容作为全局图像特征表达,从而更好的挖掘出用于关联分析的核心语义信息,同时滤除图像中一些不相关的冗余内容。此外,我们使用一个常规的LSTM-RNN对文本进行编码,同样以序列化的方式融合所有单词的语义信息为文本序列的全局特征表达。最后通过典型相关分析(Canonical Correlation Analysis,CCA)以最大线性相关性学习来关联图像和文本两种模态数据的特征表达,从而实现更加准确的跨模态匹配。大量的实验分析表明,所提出的RCCA方法在图像-文本匹配任务上相比于先前典型相关分析类方法获得了更好的性能。(2)针对细粒度跨模态图像-文本匹配的困难,本文开展了基于视觉语义推理的细粒度跨模态图像-文本匹配的研究工作。图像-文本跨模态匹配领域现有工作主要通过学习图像和文本两种模态的全局特征表示,然后将它们嵌入到一个共同的多模态语义空间进行跨模态相似性度量学习,但是这样粗粒度匹配的解决方案可能会导致局部细节语义的缺失,因此细粒度图像-文本匹配仍是有待解决的挑战性问题。为了解决此问题,本文提出一种改进的视觉语义推理模型(Improving Visual Semantic Reasoning Model,VSR++),该模型基于图像-文本粗粒度匹配的背景下使用局部跨模态注意机制额外建模了区域-单词的细粒度对应关系。为了更好的利用不同粒度匹配之间互补的优势,我们还引入了一个简单且有效的联合学习策略以平衡两个不同粒度匹配之间的相对重要性。大量的实验分析表明,所提出的VSR++方法在两个基准数据集上达到了当前图像-文本匹配任务的领先性能。
其他文献
无线电能传输(Wireless Power Transfer,WPT)技术作为一种新兴的非接触式能量传输方式,摆脱了充电导线的束缚,具有安全、灵活和便捷等优点,在电动汽车、医疗器械以及无人机等场合具有广泛的应用前景。然而,在实际的供电场合中,接收线圈与发射线圈相对位置的不确定性,导致系统的互感以及效率受到影响。为解决线圈偏移对系统性能造成的影响,国内外学者相继提出了多发射WPT系统,基于接收线圈位
随着经济的飞速发展以及城市化的快速推进,国内许多城市正在进行大规模的轨道交通建设。但是轨道交通发展的同时,减少运行能耗已变成亟待解决的问题。在此背景下,轨道交通中由于列车制动时产生的能量,可以通过再生制动能量(Regenerative Braking Energy,RBE)利用装置将其回收和利用,既解决了列车制动时牵引网电压波动问题,又能将RBE回收利用,减少了能量的浪费。本文的轨道交通再生制动系
近年来,目标跟踪技术广泛应用于智能交通系统、智能视频监控、智能人机交互、无人驾驶汽车等多个社会领域。因此,对目标跟踪方法的研究具有重要的现实意义。目标跟踪作为计算机视觉领域的一个重要方向,同样是当前的研究热点。然而尽管目标跟踪在速度及精度等许多方面取得了不错的发展,但其仍然是一个极具挑战性的任务。在目标跟踪中,背景杂乱、运动模糊、光照变化及形变等干扰均可能影响跟踪的实际效果。为了提高目标跟踪方法在
随着城市内复杂楼宇的不断建设,在室内外融合区域下人们对于导航定位的需求日益突出。在室外区域可使用卫星导航系统(Global Navigation Satellite System,GNSS)方便快捷的获取定位结果,但由于建筑物的遮挡,GNSS信号变弱,服务范围也会随之变小,因此在室内无法持续提供稳定的定位服务,同时因基站架设成本等问题,目前更为成熟、定位精度更高的众多室内定位技术却无法在室外为用户
血液中白细胞含量的百分比往往可以诊断出某种类型的疾病,因此,研究白细胞在血液中的含量对医生的临床指导具有很大的辅助作用。但同时,各类白细胞之间的的形态特征区分度不明显,通过对外周血细胞中的五类白细胞的各项指标进行统计,有助于快速判断患者的疾病类型,帮助医生采取有效的措施对患者进行诊断。因此,医院大多数采用人工镜检的形式提高检测精度。但这种方法存在效率低,耗费人力、物力大,同时需要凭借医生的从业经验
随着高通量测序技术和现代生物信息学的迅速发展,微生物学的研究越来越受到科学界和医学界的重视。多年来的研究证明,微生物与人类疾病密切相关。深入了解微生物和疾病之间的关联关系,不仅能揭露更多人类疾病的发病机制,还可以对疾病的预防和治疗提供新的见解,从而促进全球人类健康。然而,传统的生物验证实验耗时长、成本高。因此,采用计算方法预测潜在的微生物-疾病关联正在成为热点研究课题。本文主要利用已知的微生物-疾
现代网络和通信技术的发展给社会带来了极大的便利,连接了各地的设备和场所。其中无线传感器网络技术可以服务的对象多,工作环境要求不高,使其大规模的融入现代社会成为了一种可见的趋势。对于这种改变人们日常生活的新技术,学术界开展了各种深入研究,其中关于无线传感器网络节点的定位算法占据了很重要的位置。本文选取两种典型的定位算法作为优化对象,利用改进的元启发式算法提高定位的准确率,主要的研究工作如下:(1)通
能源与环境是人类社会发展的基础。自工业革命以来,化石能源的大量使用给环境带来了巨大的压力,可再生清洁能源的开发俨然成为了人类可持续发展的必然要求。氢能是一种高能量密度的清洁能源,用途广泛,并且有望替代传统化石能源。高效制备氢能是解决环境问题与能源危机的有效途径之一,其中半导体光电极光电化学分解水制氢能够将太阳能转化为氢能,是高效的能源转换技术。当半导体电极吸收光子能量超过其禁带能隙时,会产生光生电