基于深度学习的人体姿态合成

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：freeangel01

【摘要】

：

人体姿态合成是根据少量人体姿态关键点合成同一个人不同姿态的任务也是计算视觉领域与人体姿态相关的一个重要分支。近年来研究发现人体姿态合成技术在数据集扩充、视频预测

【作者】

：

刘雄飞

【出处】

：

合肥工业大学

【发表日期】

：

2004年期

【关键词】

：

深度学习生成式对抗网络双输入编码内容重建网络注意力机制

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人体姿态合成是根据少量人体姿态关键点合成同一个人不同姿态的任务也是计算视觉领域与人体姿态相关的一个重要分支。近年来研究发现人体姿态合成技术在数据集扩充、视频预测以及视频合成等方面有着巨大的应用价值。因为传统方法合成的人体图像虽然在姿态和外表上接近目标图像,但是姿态与目标图像契合度还不够,图像细节方面保留度较差,生成图像与目标图像差距较大。因此,本文基于以上问题,结合深度学习理论设计模型针对姿态契合度和细节保留度两个方面进行改进。本文的工作及创新如下:1,针对生成图像姿态不匹配的问题,本文对传统的生成式对抗网络进行改进,创新性地提出了双输入生成模型。增加一条网络路径对目标姿态关键点图像单独编码,然后结合原始网络形成双输入的生成网络。目标图像的姿态特征在上采样时与原始图像上采样阶段对应尺寸的特征结合,最终得到逼近目标图像姿态的新图像。增加了一条对姿态信息的编码路相当于提高了生成阶段的目标姿态信息的利用率,得到更多姿态信息的生成器可以生成更加匹配目标姿态的图像,从而改善生成图像姿态不匹配的问题。实验在公开的数据集上进行,结果显示本文提出的这种方法有助于提高生成图像的质量。2,为了使生成图像的细节更加丰富,本文从内容相似度入手构建了带有内容重建网络的姿态合成模型。内容重建网络对生成的图像的内容进行重建,约束生成图像和目标图像之间的距离,通过拉近图像高层特征之间的距离来缩小图像之间的差距,从而使生成图像在内容上更加接近目标图像。这种优化高层特征空间的距离来拉近图像之间差异的方法,使得生成图像的细节更加丰富。3,为了提高生成图像的质量减少网络的复杂度,本文进一步构建了带有注意力机制的模型。将注意力机制内嵌到残差网络中,加深生成网络,提高网络特征提取的能力,同时还减少随着网络加深带来的特征丢失。类似于人体视觉注意力机制对特有信号有着特有的处理方式,图像的注意力机制使得网络对生成图像的姿态相关的信息赋予较大的权重,使网络对生成图像的姿态更加关心,而与姿态无关的信息注意力机制赋予较小的权重。因为注意力机制是内嵌到网络中的,使用注意力机制缩减了网络的规模,同时生成的图像更加接近目标图像,在公开数据集上的实验也表明这种带有注意力机制的网络生成目标图像的效果出众。

其他文献

L0正则项约束的可逆灰度图算法

图像上色与去色是计算机视觉领域及图像处理领域内的重要技术。对彩色图像进行去色操作,在现实生活中有着诸多应用,如图像打印,单通道图像处理以及风格化处理等;而对黑白图像

学位

图像去色图像上色双特征融合L0正则项卷积神经网络

基于Jenkins的DSP处理器驱动自动化测试平台的设计与实现

目前,数字信号处理器(digital signal processor,DSP)依靠对信号的快速采集、识别处理、变换等功能,在家庭影音、航空航天、工业控制等领域得到了非常广泛的实际应用。DSP的功能完整实现依赖于它的配套驱动软件支持,DSP处理器产品市场竞争愈发激烈,实现敏捷开发变得愈发重要,保证处理器产品研发速度跟上市场需求变化的脚步,这也意味着驱动软件的开发测试需求也随之快速增长。为保证软件质

学位

DSP驱动软件测试Jenkins自动化测试平台持续集成

多通道CAN数据采集在惯导测试中的实现

在惯导产品的标定与验收中,如何提高设备利用率,降低测试成本,是亟待解决的问题之一。然而,目前市场上的CAN接口数据采集装置最多只能同时采集八个通道的数据。因此,为了进一步提高惯导测试效率,减少产品开发周期,本文设计了一种高效、便携的24通道CAN数据采集装置。本文针对传统的数字复接中的FCFS算法调度效率不高,仅考虑任务等待时间,忽略任务执行时间,易导致任务超出截止期。本文对任务的剩余价值密度及执

学位

多通道CANFPGA数字复接动态优先级分配

基于深度卷积神经网络的彩色图像拼接定位算法研究

随着数字图像技术的快速发展和图像编辑软件的普及,人们可以对数字图像进行随意的编辑和修改而不留下明显的视觉痕迹。伪造图像的出现给生活中的许多方面带来了负面的影响,如

学位

彩色图像四元数全卷积神经网络Faster R-CNN图像拼接定位

中国电子游戏产业的本地市场效应研究

为响应文化供给侧结构性改革的号召,同时健全现代文化产业体系和市场体系,推动文化产业实现转型升级,全国各地开始大力度发展以数字文化为代表的新兴文化业态。一系列鼓励政

学位

电子游戏产业本地市场效应引力模型中介效应

非空室内光载无线通信系统的多阶调制技术研究

可见光通信(VLC)是一种将电信号调制到发光二级管(LED)发射的可见光上进行光信号传输的新型技术。该技术是兼顾照明和通信功能的新型无线光通信技术,具有大调制带宽、无电磁辐射和支持信号高速率传输等优点,可广泛应用于室内无线信号接入系统中。因此,在室内环境中研究可见光接入系统中的多阶调制格式具有技术可行性和应用必要性。本文分析了相移键控调制、正交幅度调制和正交频分复用技术(OFDM)调制信号的调制/

学位

可见光通信信道多阶调制误码率信噪比

视频监控中的步态特征提取系统研究与开发

现如今,视频监控行业发展迅速。大量监控摄像头带来了数据量的增加,由此出现检索困难,实时响应差等问题。对视频监控内容进行智能化分析越来越重要,其中,视频中行人目标身份识别在刑侦检索、自助服务等方面起到非常重要的作用。步态识别通过行走姿态实现身份识别,无需人为配合且适应较远距离。要将步态识别技术应用到视频监控中,首要任务是获取行人的步态特征表达,需要解决在复杂监控场景下获取行人有效步态特征问题。因此,

学位

视频监控背景建模人形图像分割深度学习步态识别

膜世界上q-形式场新局域化机制的研究

额外维的概念在现代物理学中有重要地位。因为可以解决宇宙学常数问题和层次问题等基本难题,额外维与膜世界近来又被广泛研究。膜世界的核心问题之一是引力和物质场的局域化,

学位

额外维膜世界局域化q-形式场

基于不变矩和压缩感知的图像哈希算法

图像处理软件的广泛应用使得大量视觉内容相似的图像涌现在互联网,如何高效地检测出给定一幅图像的视觉相似图像是图像处理领域亟待解决的一个重要问题。近年,越来越多的研究

学位

图像哈希视觉显著模型不变矩边缘检测序数测度压缩感知

基于Hadoop分布式存储编码的研究与实现

相比于传统的副本策略技术,纠删码策略技术在分布式存储系统中可以以更低的存储代价达到和副本一样的数据可靠性。Hadoop作为一个高扩展、高可靠的分布式框架在3.0版本之前采用了副本数为3的复制策略,3.0版本以后其文件系统HDFS引入了纠删码特性,它将文件块以k个为一组进行编码计算得到n个块并存于n个节点之中,并且以后使用任意k个节点中的块可恢复出原始数据。EVENODD编码采用了完全基于异或运算的

学位

分布式存储Hadoop纠删码EVENODD+Hitchhiker

基于深度学习的人体姿态合成

其他学术论文