融合图像场景与目标显著性特征的图像描述生成方法

来源 :计算机应用研究 | 被引量 : 0次 | 上传用户:baimeimei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述生成是图像人工智能领域的重要研究方向之一.现有方法大多仅使用单一图像特征,导致无法完全描述图像中多个目标或者无法准确表达目标间的关系.提出方法通过场景特征解码模块和目标显著性特征解码模块分别对图像场景特征和目标显著性特征进行解码,并将解码后的两种特征进行融合,实现图像目标属性与目标间关系的信息互补.在MSCOCO数据集上进行实验,结果相较于基准方法有一定的提升,表明该模型对图像内容的描述更加准确和完善,对图像信息表达更加丰富.
其他文献
针对目前大多数视频隐写算法不满足Kerckhoffs准则进行了研究,在博弈论隐写模型的基础上,提出了一种新的基于运动矢量修改的H.264视频隐写算法.该算法利用人眼视觉特性中对运动矢量的方向和速度特性敏感程度不同计算失真代价函数,再根据博弈论相关理论结合失真代价函数得到每个运动矢量的嵌入概率,实现了一种在理论上满足Kerckhoffs准则的视频隐写算法.实验结果表明,与同类型视频隐写算法相比,在满嵌时该算法的PSNR和SSIM的平均变化值分别降低了18.5%和12%,具有较好的安全性和不可感知性.
基于深度学习的图像检索技术使得图像隐私泄露成为一个亟待解决的问题.利用对抗攻击生成的对抗样本,可在一定程度上实现隐私保护.但现有针对图像检索系统的目标对抗攻击方法易受选取目标样本质量和数量的影响,导致其攻击效果不佳.针对该问题,提出了一种基于特征加权聚合的图像检索目标对抗攻击方法,该方法将目标图像的检索准确率作为衡量样本质量的权重,利用目标类中少量样本的特征进行加权聚合获取类特征作为最终攻击目标.在RParis和ROxford两个数据集上的实验结果表明,该方法生成的对抗样本相比TMA方法,检索精度平均提升
针对现有低照度图像增强算法难以同时处理亮度、对比度、伪影和噪声等因素,提出了多分支残差与仿射变换低光增强网络,其核心思想是运用不同模块处理不同的任务.首先通过光照估计模块获得低光图像的光照变量,然后使光照仿射变换模块与光照编码参数融合恢复图像的光照,最后通过细节重建模块融合更多的图像细节获得最终输出.实验结果表明,该方法有效地丰富了图像的纹理细节,同时增强了亮度和对比度,并具有更少的伪影和噪声.通过与其他主流方法进行比较,定量和定性地证明了提出方法对低光图像增强的效果更好.
针对大多数视频问答(VideoQA)模型将视频和问题嵌入到同一空间进行答案推理所面临的多模态交互困难、视频语义特征保留能力差等问题,提出了一种视频描述机制来获得视频语义特征的文本表示,从而避免了多模态的交互.提出方法将视频特征通过描述机制得到相应的视频描述文本,并将描述文本特征与问题特征进行阅读理解式的交互与分析,最后推理出问题的答案.在MSVD-QA以及MSRVTT-QA数据集上的测试结果显示,提出问答模型的回答准确率较现有模型均有不同程度的提升,说明所提方法能更好地完成视频问答任务.
在工业互联网应用中,由于异构节点计算和存储能力的差异,通常采用云方案提供数据存储和数据访问服务.云存储中的访问控制如扩展多权限的云存储数据访问控制方案(NEDAC-MACS),是保证云存储中数据的安全和数据隐私的基石.给出了一种攻击方法来证明NEDAC_MACS中,被撤销的用户仍然可以解密NEDAC-MACS中的新密文;并提出了一种增强NEDAC-MACS安全性的方案,该方案可以抵抗云服务器和用户之间的合谋攻击;最后通过形式密码分析和性能分析表明,该方案能够抵抗未授权用户之间以及云服务器与用户之间的合谋攻
当前大部分伪造人脸检测技术使用深度学习来鉴别真实视频与伪造视频之间的特征差异,此类方法在未压缩视频上取得了不错的效果,但在检测经过压缩处理的视频时检测效果就会严重下降.针对此类问题,提出了基于改进三元组损失的伪造人脸视频检测方法.首先,使用伪影图生成器生成一幅伪影图来加深伪造人脸与真实人脸之间的特征差异;其次,使用改进的三元组损失来解决难例样本难以被正确检测的问题;最后,选用更适合人脸鉴伪的深度学习网络提取卷积特征.在FaceForensics++数据集上与目前领先的人脸鉴伪方法的对比表明,该方法检测准确
针对现有骨架动作识别主要采用双流框架,在提取时间空间以及通道特征方法上存在的问题,提出一个ADGCN,用于骨架动作识别.首先对骨架数据进行建模,分别将关节、骨骼及其关节和骨骼的运动信息输入到多流框架的单个流.然后将输入的数据传送到提出的有向图卷积网络中进行提取关节和骨骼之间的依赖关系,再利用提出的时空通道注意力网络(STCN),增强每层网络中关键关节的时间、空间以及通道的信息.最后将四个流的信息通过加权平均计算动作识别的精度,输出动作的预测结果.此模型在两个大型数据集NTU-RGB+D和Kinectics
当前普遍使用的轻量型神经网络仍然存在计算量与参数量过大的问题,导致算力较低的廉价移动设备无法快速完成图像分类任务.针对此问题提出了一种更适合于应用在算力较低的廉价移动设备上的轻量型神经网络,引入了代价较小的线性操作与特征图合并操作用于减少神经网络的计算量与参数量,还引入了改进的残差结构、注意力机制和标签平滑技术用于提高结果判断的准确率.基于PD-38数据集的实验表明,该神经网络相比传统的轻量型神经网络使用较小的计算量与参数量可以达到较高的分类准确率.在公共数据集CIFAR-10上的实验进一步表明该神经网络
作为一种提取视频时空特征的深度学习方法,伪三维残差网络(pseudo-3D residual net,P3D ResNet)利用SVM目标函数来驱动深度网络学习,这样该方法继承了SVM的不足——仅考虑了不同类别间的间隔,忽略了同类样本数据的分布信息.针对该问题,提出了基于最小类内方差的伪三维残差网络方法,不仅体现了大间隔原理,同时又利用了样本数据的分布信息.该方法首先使用P3D ResNet提取的特征向量计算类内散度矩阵;然后利用该矩阵构建了新的目标函数;最后通过新构建的目标函数来驱动P3D ResNet
主流的目标跟踪算法只使用可见光(RGB)图像进行跟踪任务,当跟踪场景的光照条件较差时,表征颜色和纹理特征的可见光图像会严重限制跟踪器的跟踪性能.针对单一模态目标信息存在缺失的问题,在Siam-FC网络模型以及红外—可见光图像融合思想的基础上提出了双模态权值自更新孪生网络目标跟踪方法.根据红外图像可以采集运动目标热信息的特点,有效利用了红外和可见光图像在目标跟踪领域的互补优势;使用较浅的特征提取网络AlexNet即可提取到运动目标具有鲁棒性的特征,在保证跟踪精度的同时提高了跟踪模型的跟踪速度.在公开数据集O