【摘 要】
:
随着第五代通信技术以及智能设备的突破性发展,以图像、文本、视频为主要内容介质的多媒体数据呈现出海量式增长的趋势。在多媒体数据的发展趋势下,人们对人机交互的体验模式提出了更深层次、更多维度的业务需求,跨模态检索技术应运而生。传统的跨模态检索仅仅涉及图像、文本等单一视觉感知的模态内容,无法满足VR、远程医疗、自动驾驶等新一代应用需求。因此,为了将人机交互的沉浸式体验推至新的维度,本文拟将人类三大感知之
论文部分内容阅读
随着第五代通信技术以及智能设备的突破性发展,以图像、文本、视频为主要内容介质的多媒体数据呈现出海量式增长的趋势。在多媒体数据的发展趋势下,人们对人机交互的体验模式提出了更深层次、更多维度的业务需求,跨模态检索技术应运而生。传统的跨模态检索仅仅涉及图像、文本等单一视觉感知的模态内容,无法满足VR、远程医疗、自动驾驶等新一代应用需求。因此,为了将人机交互的沉浸式体验推至新的维度,本文拟将人类三大感知之一的触觉引入跨模态检索,实现视觉数据与触觉数据的自由检索,即跨模态材料表面检索。此外,随着多模态数据的爆炸式增长,跨模态检索将面临存储成本高、检索时间长等瓶颈问题,阻碍其进一步大规模应用。因此,本文将哈希学习与跨模态检索进行深层次融合,利用二维哈希码在存储成本、检索速度上的显著优势,解决这一关键瓶颈,提出了跨模态材料表面哈希检索。本文的具体研究内容如下:(1)实现高精度的跨模态材表面检索需要大规模、高质量数据集的支撑,然而现有的公开数据集基本以视觉模态数据为主,其主要内容为图像以及文本,难以满足跨模态材料表面检索对数据集的基本要求。因此,本文提出了基于生成对抗式网络的视觉与触觉数据扩充模型,利用生成对抗网络拟合原始数据集,生成包含复杂特征的高质量新数据。仿真实验表明,本章所提模型能够有效生成高质量的视觉与触觉扩充数据。(2)传统的跨模态检索模型大多直接将原始数据中包含的所有语义特征信息融入模型的训练过程中,忽视了其中包含的大量冗余信息,导致跨模态检索精度的不理想。为了解决这一问题,本文提出了一种基于自注意力感知网络的跨模态材料表面哈希检索模型。具体而言,本文利用自注意力机制提取原始数据中的跨模态相关部分,剔除冗余的无关部分,并利用相关部分为跨模态材料表面检索提供语义支持。仿真实验表明,本章所提模型能够有效实现跨模态材料表面检索。(3)在研究内容二的基础上,本文认识到跨模态相关信息与非相关信息对于构建跨模态材料表面检索均具备重要价值。因此,本文将跨模态相关信息与非相关信息升维为共享信息与私有信息,提出基于共享-私有信息联合增强的跨模态材料表面检索。具体而言,共享信息表示在多种模态数据中共存的语义特征信息,仅仅在表现形式上存在差别,而私有信息表示仅仅在单模态内部隐含的以噪声、背景为主的冗余信息,在多模态场景下不具备普遍性。基于共享信息与私有信息,本章利用两者之间的互补性与正交性构建更高精度的跨模态材料表面检索。仿真实验表明,本章所提模型能够进一步提高跨模态材料表面检索的准确度。
其他文献
2004年,科研人员成功制备出石墨烯,这激发了研究者对二维材料的研究热情。研究人员不断寻找结构独特且具有优异性质的新颖二维材料。其中,单层磷化硼(BP)是一种性能很好的二维材料,具有类石墨烯结构和较高的稳定性。BP的带隙值随着层数的增加而减小,其能带可以通过堆叠和施加外电场进行调控,单层BP是一种带隙值约为1 e V的半导体材料且具有直接带隙的性质。此外,它还具有极高的载流子迁移率。由于单层BP的
电力系统的安全稳定运行是社会有秩序发展的心脏和动力,促使我国经济稳步快速发展,为人类社会的发展起到了巨大的促进作用。因此,对电力系统领域的研究对社会和国家来说都有重要的价值和意义。本文主要对智能优化算法中粒子群优化算法进行研究,针对其易过早陷入局部最优值和对于某些多维问题难以搜索到最优解的缺陷进行改进,并应用于电力系统经济调度问题。首先,本文对基本粒子群优化算法做了深入的研究,从算法原理、认知分析
随着信息时代的发展,高质量的图像在摄影、航天、生物医学、通信以及资源勘探等方面具有重要应用。然而图像在采集传输过程中易受到设备以及外部环境的干扰,最终得到的往往是降质图像(通常含有噪声、模糊、下采样等),极大地影响了后续分析与应用。作为一类特殊的含乘性噪声的降质图像,由于乘性噪声的高度图像依赖性,使得图像乘性噪声去除变得相当困难和极具挑战性,因此研究更加有效的图像乘性噪声去除方法变得尤为重要。由于
手势识别作为一种自然直观的人机交互方式,用户可以通过手部运动来实现对电子设备的控制。毫米波作为5G无线通信关键技术,可大幅度提高无线网络速率。除了超高速无线传输,毫米波的短波长、大带宽、有向波束等特点,也使得高分辨率、高健壮性的人员手势识别成为可能。为了取得更智能、便捷的人机交互体验,本文基于调频连续波毫米波雷达平台进行了手势分类和识别的研究,具体工作如下:(1)针对微小手指动作、易混淆手势的分类
透明非晶铟镓锌氧(a-IGZO)基薄膜晶体管(TFT)以其具有驱动能力强、光学透过率高、大面积制备均一性好、功耗低等优点,作为核心器件应用于新一代显示驱动技术中。尽管a-IGZO TFT表现出优异的器件性能,但由于a-IGZO沟道材料的晶格结构无序性,在材料中存在高密度的亚带态缺陷,严重影响a-IGZO TFT的器件性能与可靠性。近年来,原位氮掺杂技术被提出抑制a-IGZO TFT器件中亚带态相关
随着智能设备大规模的接入电网,各项网络通信技术与电力的融合也愈加紧密,这将非常有利于智能电网的发展。但机遇与危险并存,信息技术与智能设备的高度融合使得电力侧也将面临更多来自网络的攻击和威胁。其中,由电动汽车和充电桩组合而成的电动汽车充电系统具有负荷量大、网络通信发达等特点,一旦攻击者以此为突破点,实施针对电力系统的网络攻击,导致信息泄露或决策失误,将对经济和社会稳定造成无法预测的损失和不利影响。因
在高比例可再生能源接入电网背景下,发电侧与需求侧的功率不确定性加剧,电力系统调度的灵活性需求激增,系统的安全可靠运行面临巨大的挑战,单独利用发电侧应对负荷变化的方式已难以支撑电网的调节需求。本文利用负荷的可调容量提高电网运行的灵活性,分别从需求响应(Demand Response,DR)与备用角度分析了负荷的可调价值,以此促进新能源消纳;进一步,通过负荷集群的有效聚合以降低系统的整体调控成本,提高
密码学是一门研究如何保密地传递信息的学科。密码学在诞生之初是为了保护军事通信,经过长期的发展,密码学在金融、商业和个人隐私上都起着非常重要的作用。传统密码体制的安全性是基于计算复杂度而设计的,数字签名传统密码体制之一,由于其准确性和安全性,它被广泛应用于金融、邮件等各种通信任务中,但是在算法不断突破以及量子计算机蓬勃发展的当下,这类体制变得不再安全,量子密码学的出现给了人们希望。与传统密码学相比,
图像语义分割(Image Semantic Segmentation)一直是计算机视觉中一项基本且具有挑战性的任务,它在许多实际应用中发挥着重要作用,例如机器人技术和医学分割等。近年来,卷积神经网络(Convolutional Neural Networks,CNNs)在语义分割领域中的应用取得了显著进展。例如,基于全卷积神经网络架构(Fully Convolutional Network,FCN
近年来,由于光子轨道角动量(Orbital Angular Momentum,OAM)具备正交性和高维性,基于OAM态的高维量子通信及基于OAM态的复用光通信(不需要额外的带宽)都引起了广泛的关注,其中精确的OAM态检测仍然是一个重要挑战。本文针对于光子轨道角动量的拓扑荷检测、轨道角动量光束的强度和相位捕获进行了研究,主要工作和成果如下:(1)考虑到OAM光束具有螺旋相位结构及其Gouy相位特点,