【摘 要】
:
随着近些年深度学习和计算机视觉技术的兴起,人脸图像的缺损或遮挡修复方法得到进一步发展,其在老(旧)人脸照片修复、社交娱乐、刑侦人脸图像修复等领域有广泛的应用前景。但是目前许多修复方法仍然存在着问题,例如对缺失区域的结构信息预测不精确导致修复结果存在模糊不清晰的现象;修复后的图像的纹理结构过于简单使得修复结果缺乏图像纹理一致性等。本文在第2章和第3章中分别针对人脸图像缺损修复后产生的模糊现象和缺乏纹
【基金项目】
:
校企科技合作科研项目:基于机器视觉与机器学习的安保机器人关键技术研究项目;
论文部分内容阅读
随着近些年深度学习和计算机视觉技术的兴起,人脸图像的缺损或遮挡修复方法得到进一步发展,其在老(旧)人脸照片修复、社交娱乐、刑侦人脸图像修复等领域有广泛的应用前景。但是目前许多修复方法仍然存在着问题,例如对缺失区域的结构信息预测不精确导致修复结果存在模糊不清晰的现象;修复后的图像的纹理结构过于简单使得修复结果缺乏图像纹理一致性等。本文在第2章和第3章中分别针对人脸图像缺损修复后产生的模糊现象和缺乏纹理一致性两个问题展开研究,主要研究工作如下:(1)提出了一种基于密集多尺度融合的局部二值模式人脸图像缺损修复模型(Face Image Inpainting Network based on Dense Multi-Scale Fusion of Local Binary Patterns,FI~2N-DMFLBP)。该网络是一种新的端到端的两阶段(粗到细)生成模型,主要解决现有大多数人脸图像修复方法中对缺失区域特征信息提取过少,对待修复区域的结构预测不精确导致图像修复结果模糊的问题。在一阶段的密集多尺度融合的局部二值模式(Dense Multi-Scale Fusion of Local Binary Patterns,DMFLBP)学习网络中,采用密集多尺度融合的形式增加神经元的感受野,使得捕获到的缺失区域的结构信息更加丰富,在第二阶段中将DMFLBP学习网络与实际的修复网络相结合,实现人脸图像缺损修复;在修复网络中,采用U-Net架构的编码器与解码器结构,并引入双向(正、反)跳跃连接,实现特征复用,使修复网络更好地处理图像特征,从而提升图像恢复的质量。实验表明,在公开的高清人脸数据集Celeb A-HQ上,无论是从定性还是定量的角度去考量,该模型与其他主流人脸图像修复网络相比,图像修复质量都取得了较为显著的提升,从而证实了方法的科学性和可行性。(2)提出了一种基于空间注意力机制的人脸图像缺损修复模型(Face Image Inpainting Network based on Dense Multi-Scale Fusion of Local Binary Patterns and Spatial Attention,FI~2N-DMFLBP-SA)。该模型主要针对现有人脸图像修复方法在进行修复时仅仅考虑了已知区域和待修复区域之间的相关性,导致修复图像缺乏纹理一致性的问题,在FI~2N-DMFLBP中引入空间注意力机制,不仅考虑已知区域与所生成区域之间的一致性,而且还考虑所生成区域自身内的一致性,使得修复图像获取到了更多的相关补丁作为优化的参考,进而提高了图像修复的纹理一致性。在公开的高清人脸数据集Celeb A-HQ上面进行对比实验,结果表明,本文提出的FI~2N-DMFLBP-SA模型在定性和定量上均比FI~2N-DMFLBP模型效果更好,并且与同类算法相比也有较好的表现。(3)设计实现了一个基于小程序平台的人脸图像缺损修复系统。将本文提出的人脸图像缺损修复模型应用于实际生活场景中,通过对系统的设计和实现,完成了对日常生活中残缺的人脸图像的修复,并验证了本文所提出的模型实际可行性。通过本系统,用户能够轻便快捷地对人脸图像进行缺损修复,并且得到一种对珍藏的人脸照片进行缺损修复的方案。
其他文献
数字处理技术的发展使得对图像进行分析、操作和处理,最终转换为计算机可识别三维模型的方法越发高效,相较于无须考虑视角影响的单张图像,多视图三维重建因自然图像标注视角的缺乏而面对不小的挑战,如何高效利用图像特征实现自然图像的目标视角估计与三维重建已经成为亟待解决的问题。现阶段,各类别图像视角估计模型独立不相关且三维重建模型大多仅利用了单张图像的深层语义特征,模型参数冗余且图像特征利用单一。由于多视图目
单人体解析作为图像语义分割领域的一个重要分支,目前在人体行为识别、行人再识别、图像人体检测等多种应用中扮演着重要角色。但受限于图像中人体及背景的多变性,传统的图像分割方法无法在单人体解析任务上取得良好的性能。目前基于深度学习中的卷积神经网络逐渐成为了图像语义分割的主流方法。相较于传统图像分割方法,卷积神经网络能够挖掘图像深层的语义信息。许多用于图像语义分割的网络模型也逐渐应用于单人体解析任务。但这
随着深度学习技术的逐渐成熟,自然场景下的文字检测与识别得到了更好的发展,场景文字相关技术可以应用与路牌识别、车牌识别、实时翻译以及场景分类等领域。区别与普通的文档图像检测与识别,以自然场景为背景的图像往往更具有挑战性,由于其背景极具复杂性,会受到各种干扰因素的影响:光照、相似背景物、文字的多样性和图像模糊等。本文将针对自然场景下的文字检测模型展开探究,主要工作如下:(1)详细研究了传统场景文字检测
目前,由于人体行为识别算法的迅速发展,其在实际生活中的各个方面都具有良好的应用前景。行为识别算法可分为传统算法和基于深度学习的算法。传统算法依靠人工提取特征,发展受到限制。基于深度学习的识别算法可以自动学习特征,算法效率和准确率得到提高。但仍存在没有综合使用短期时空特征和长期时序特征,忽略视频中空间特征和时间特征提取尺度和权重等方面的问题。针对此类问题,本文对人体行为识别算法深入研究,主要工作如下
随着科技的进步,自动驾驶等场景得到了落地和快速发展。自动驾驶使用到的主要技术就是语义分割。在自动驾驶中对于分割的速度和精度都有着较高要求,然而目前很多高精度的模型推断速度慢,且由于参数和计算量较多并不适合部署在车载计算机等现实场景设备上。另一方面,参数量少的网络虽然适合部署且推断速度快,但是精度又会有所损失。语义分割如何在速度和精度上达到一个较好的权衡,这便是实时语义分割的重点研究问题。本文将对当
车用电子水泵不仅在传统汽车发动机的冷却系统中占有重要地位,而且在新能源电池、电机冷却中扮演不可或缺的角色,其运行状态是否正常直接影响着汽车发动机及车辆其他系统的工作性能,因此对车用电子水泵故障诊断进行研究具有十分重要的价值与意义。本文主要根据电子水泵的电流特性以及故障诊断的功能和需求分析,设计并搭建了车用电子水泵故障诊断系统,实现车用电子水泵的故障诊断。首先,对车用电子水泵故障诊断的研究意义和国内
上肢参与了日常活动中的大部分动作,其协调功能的损伤必将严重影响患者的运动能力与生活质量。脑卒中患者通常存在不同程度的上肢协调功能异常问题,因此,上肢协调训练是脑卒中患者术后康复过程中极其重要的一部分。康复机器人可以为患者提供长期且定量的康复治疗,有助于帮助患者更快地恢复上肢运动功能。但是,气动肌肉驱动的模块化外骨骼康复机器人具有变化的工作环境,消除机器人运动学与动力学差异,实现其高精度位置控制变得
随着信息时代高速发展,信息数据急剧增长,图像作为信息数据传递的载体,如何有效分类海量的图片是一个十分重要的研究课题。细粒度图像分类作为图像分类的子问题,也是计算机图像处理的研究热点之一。如果能实现低成本的细粒度图像分类技术,那么在生态环境监测,交通事故追踪,航线系统编排等领域都能广泛应用。由于细粒度图像类别之间有极强的相似性,但类内之间又会由于姿态或环境的影响表现巨大的特征差异,传统的图像分类方法
随着互联网快速发展,人们面临着信息过载的问题,过量的信息不仅会增加人们获取有效知识的难度,还可能会误导用户。为了解决这个问题,出现了个性化推荐,推荐系统能够给用户推荐合适的内容来满足用户的需求,比如在视频类、音乐类、电商类等网站给用户推荐视频、歌曲和商品。然而大多数基于神经网络的推荐模型聚焦于提高模型的整体性能,而忽略了模型的鲁棒性,特别是如果反馈数据被用户有意或无意的行为破坏,模型的准确度可能大
近年来随着自动化水平的不断提高,各类机器人已经开始广泛应用到工业、医疗、生活等多个领域,人机交互的应用场景也越来越广泛。由于利用穿戴式传感器实现实时的人机交互存在传感设备价格昂贵、操作人员需要事先培训等局限,因此使用3D相机作为传感器,利用视觉算法来实现手臂与机械臂的实时人机交互有着更加广泛的应用场景以及更大的发展潜力。现阶段的动态手势识别多是通过光流法来提取手势特征,需要巨大的计算量,存在耗时久