【摘 要】
:
当前,以网络数据为代表的跨媒体数据呈现爆炸式增长的趋势,呈现出了跨模态、跨数据源的复杂关联及动态演化特性,跨媒体分析与推理技术针对多模态信息理解、交互、内容管理等
【基金项目】
:
科技部重点研究发展计划项目(2018AAA0102003),国家自然科学基金项目(62022083,61672497),中国科学院前沿科学重点研究项目(QYZDJ-SSW-SYS013)
论文部分内容阅读
当前,以网络数据为代表的跨媒体数据呈现爆炸式增长的趋势,呈现出了跨模态、跨数据源的复杂关联及动态演化特性,跨媒体分析与推理技术针对多模态信息理解、交互、内容管理等需求,通过构建跨模态、跨平台的语义贯通与统一表征机制,进一步实现分析和推理以及对复杂认知目标的不断逼近,建立语义层级的逻辑推理机制,最终实现跨媒体类人智能推理。文中对跨媒体分析推理技术的研究背景和发展历史进行概述,归纳总结视觉-语言关联等任务的关键技术,并对研究应用进行举例。基于已有结论,分析目前跨媒体分析领域所面临的关键问题,最后探讨未来的发展
其他文献
图像压缩是数据压缩技术在数字图像上的应用,其目的是减少图像数据中的冗余,从而用更加高效的格式存储和传输数据。传统的图像压缩方法中,图像压缩分为预测、变换、量化、熵编码等步骤,每一步均采用人工设计的算法分别进行优化。近年来,基于深度神经网络的端到端图像压缩方法在图像压缩中取得了丰硕的成果,相比传统方法,端到端图像压缩可以进行联合优化,能够取得比传统方法更高的压缩效率。文中首先对端到端图像压缩的方法和
图像修复是计算机视觉领域中极具挑战性的研究课题。近年来,深度学习技术的发展推动了图像修复性能的显著提升,使得图像修复这一传统课题再次引起了学者们的广泛关注。文章致力于综述图像修复研究的关键技术。由于深度学习技术在解决"大面积缺失图像修复"问题时具有重要作用并带来了深远影响,文中在简要介绍传统图像修复方法的基础上,重点介绍了基于深度学习的修复模型,主要包括模型分类、优缺点对比、适用范围和在常用数据集
为了解决鑫都煤业因地质环境复杂导致的巷道掘进效率低下问题,通过对井下大巷掘进现状的分析,提出了以优化巷道卸压孔、优化巷道支护结构的快速掘进技术方案。新的快速掘进方
近年来,随着以深度学习为代表的人工智能技术的快速发展和广泛应用,人工智能正深刻地改变着社会生活的各方面。然而,人工智能模型也容易受到来自精心构造的"对抗样本"的攻击。通过在干净的图像或视频样本上添加微小的人类难以察觉的扰动,就能够生成可以欺骗模型的样本,进而使多媒体模型在推理过程中做出错误决策,为多媒体模型的实际应用部署带来严重的安全威胁。鉴于此,针对多媒体模型的对抗样本生成与防御方法引起了国内外
视觉目标跟踪指在一个视频序列中,给定第一帧目标区域,在后续帧中自动匹配到该目标区域的任务。通常来说,由于场景遮挡、光照变化、物体本身形变等复杂因素,目标与场景的表观会发生剧烈的变化,这使得跟踪任务本身面临极大的挑战。在过去的十年中,随着深度学习在计算机视觉领域的广泛应用,目标跟踪领域也迅速发展,研究人员提出了一系列优秀算法。鉴于该领域处于快速发展的阶段,文中对视觉目标跟踪研究进行了综述,内容主要包
针对岳城煤矿暗斜井在施工过程中,支护结构复杂、严重影响暗斜井掘进效率的现状,提出了采用锚、网、喷组合系统补强支护方案,解决了支护效率和支护强度的冲突。自该方案应用
为提升15119工作面采出率,确定15117工作面回采期间进行沿空留墙,随后15119工作面回风巷沿墙掘进。基于沿空留墙墙体所受压力分析结果,确定墙体采用1.5 m宽的C40柔模混凝土,
人脸识别是生物特征识别领域的一项关键技术,长期以来得到研究者的广泛关注。视频人脸识别任务特指从一段视频中提取出人脸的关键信息,从而完成身份识别。相较于基于图像的人脸识别任务来说,视频数据中的人脸变化模式更为多样且视频帧之间存在较大差异,如何从冗长而复杂的视频中抽取到人脸的关键特征成为当前的研究重点。以视频人脸识别技术为研究对象,首先介绍了该技术的研究价值和存在的挑战;接着对当前研究工作的发展脉络进
针对恒泰煤矿13020综放工作面坚硬顶板不易垮落等问题,提出在工作面和两顺槽进行深孔预裂爆破,从工作面初次来压20 m和周期来压15 m左右的实际效果来看,预裂爆破效果良好。
视觉问答与对话是人工智能领域的重要研究任务,是计算机视觉与自然语言处理交叉领域的代表性问题之一。视觉问答与对话任务要求机器根据指定的视觉图像内容,对单轮或多轮的自然语言问题进行作答。视觉问答与对话对机器的感知能力、认知能力和推理能力均提出了较高的要求,在跨模态人机交互应用中具有实用前景。文中对近年来视觉问答与对话的研究进展进行了综述,对数据集和算法进行了归纳,对研究挑战和问题进行了总结,最后对视觉