基于单目时序图像的三维人体关节点估计算法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:deansam
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年,基于单目图像的三维人体关节点估计引起学者们的广泛关注,可应用于视频监控、行为识别、三维建模、人机交互等多个领域。但是其存在较多的研究难点,例如输入图像的暗光、模糊、遮挡,以及由二维数据重建三维结构的歧义性问题等。因此,本文研究由单目序列图像估计中间帧三维人体关节点的方法,主要包括两个阶段:首先利用二维人体关节点估计算法预测序列图像的二维人体关节点位置,然后以此作为输入数据回归中间帧的三维人体关节点。针对于基础模型的差异,本文分别探究了从一维卷积模块和Transformer模块中预测人体三维关节点的方法,主要工作如下:(1)基于一维卷积的三维人体关节点估计。由于原时序卷积模型没有充分利用低层次网络的特征,且输入的二维关节点序列中存在噪声,本文对原时序卷积模型进行了改进。首先,为了充分提取并利用各层次的特征,在原时序卷积模型的每个一维卷积模块之间加入了中间监督机制,使得每个一维卷积模块都可以生成一个三维姿态,最后以一定比例计入损失函数。其次,为了尽可能保留原模型中残差结构的特征,采用平均池化函数代替了原网络中的切片函数;进一步设计二维关节滤波器对输入的二维关节点序列进行平滑处理,尽可能缩小输入数据的误差。在人体姿态数据集中与当前已有模型的对比实验表明了本文构建模型具有较高的预测精度和更强的抗噪能力。(2)基于Transformer的三维人体关节点估计。为了解决卷积模型易受制于感受野大小的问题,本文选择引入在自然语言处理中的Transformer模型,改进了原PoseFormer的网络结构,提出了针对性时空Transformer模型。首先,根据关节点运动的复杂度分成四个层级,优先训练容易估计的关节点,并由易到难,利用人体关节点链式结构的特点,层层递进,有效提升了模型的精确度。其次,结合第三章的时序卷积结构来处理帧于帧之间的时间特征,用跨步卷积取代Transformer中的全连接层,逐步减少序列长度,有效解决了相近帧时序特征的冗余问题,减少无效特征的干扰。最后,使用GeLU作为激活函数,并融入了随机正则化,有效提升了模型的泛化性。将改进模型与第三章的时序卷积模型以及当前最新的三维人体关节点估计算法的对比实验表明,该模型较时序卷积模型的效果有较大提升,对比原PoseFormer模型精准度也有一定的提升,并且在复杂动作上展示出更强的解析和预测能力。
其他文献
科技的进步推动了人工智能的发展,而人工智能的成功离不开机器学习,尤其是深度学习技术的不断成熟。进行深度学习训练需要用到大量数据,但是随着人们隐私安全意识的提升,数据收集过程受到了越来越多的阻碍。而且在某些特殊领域想要得到准确的数据还存在一定困难。协同深度学习系统不需要将数据进行集中收集后交给第三方机构保管,其允许拥有数据的组织联合起来训练一个深度学习模型,解决了上述传统深度学习面临的数据收集和隐私
学位
由于密码子的简并性导致编码氨基酸不发生改变,同义突变过去很长一段时间被认为对生命活动没有功能影响。然而,随着测序技术的高速发展和相关研究的不断深入,越来越多同义突变被证明和疾病发展有密切关系。从大量同义突变中准确识别有害同义突变,可以提高人类对疾病病理的认识,并为精准医疗的发展提供帮助。因此,精准识别有害同义突变逐渐变成一项具有前景的任务。通过传统生物实验的方法来识别有害同义突变,耗费时间长并且成
学位
随着互联网技术高速发展,数字媒体成为了生活中重要的一部分。计算机,电子通信有关技术日新月异,多媒体有关技术也随之不断更新与完善,但是相关安全问题也随之而来。为了解决数字媒体中存在的严重安全问题,信息隐藏技术得到了广泛关注。此外,随着许多用户将个人的私密数据上传到互联网中相关平台进行存储,用户信息遭到泄露的风险显著增加。因此,将传统的图像加密运用到可逆信息隐藏算法中的技术,即密文域可逆信息隐藏技术受
学位
车牌是区分不同车辆的重要标识。随着车辆的不断增加和交通的日益繁忙,智能交通系统变得越来越重要。同时,车牌自动识别技术在智能交通系统中发挥着重要作用,如视频监控系统、停车管理系统和交通违章摄像头。然而,目前大多数方法都是针对特定场景下的清晰车牌,对于不受限制的远程交通监控场景中的模糊和低分辨率图像,仍然没有一个出色的解决方案,其识别精度可以达到实际应用的标准。在很难继续提高识别算法精度的情况下,我们
学位
基于卷积神经网络(convolutional neural network,CNN)的深度学习(deep learning,DL)方法发展迅速,在计算机视觉、语音识别和自然语言处理等领域取得了很多成功的应用,尤其是在图像分类和目标检测等方面,相比传统的机器学习方法,深度学习往往有着更加出色的性能。这是因为深度学习具有更多的参数和巨大的模型加持。但是,深度神经网络(deep neural netwo
学位
随着信息科技的飞速发展,摄像机得到大规模使用,视频监控系统在人们的日常生活中日益普及。在早先的视频监控中,摄像头采集到的图像数据大多是离散的,摄像机之间存在信息无法融合等问题。基于深度学习的目标检测与追踪则可以准确地反馈目标的坐标位置和目标运动范围,其在视频监控领域里有较好的应用前景。另外,一般视频监控的数据上传到数据中心缓存、分析和处理,传输过程需要耗费巨大的通信成本。鉴于此,本文提出基于边缘计
学位
近年来随着自动语音识别技术(ASR)水平的不断提高,在会议、教学以及车载语音等领域被广泛的应用。语音经过ASR转写会变成一串中文字符,但是这串中文字符并没有标点符号。这样的文本不便于读者的阅读,并且会对ASR后处理的其他任务(文本匹配,情感分析以及文本分类等)造成不好的影响。因此标点预测算法是ASR后处理技术中必不可少的。标点预测可以为没有标点的文本加上标点,增强文本的可读性。近年来,随着基于文本
学位
作为一种新型的软件架构风格,微服务以其可维护性高、可伸缩性强和发布周期短等优点受到了越来越多研究人员的关注和公司的应用。然而,微服务给软件项目带来优势的同时,也在应用过程中迎来了相关挑战,这些挑战主要分为技术和开发组织两方面。本文将主要聚焦于解决开发组织方面的挑战,目标是明确微服务的应用对开发组织带来了哪些影响,公司如何确定其开发组织是否适应微服务开发以及如何对开发组织进行调整以提高对微服务的适应
学位
显著性目标检测就是从图像数据中找出最吸引人的部分,这部分区域被称为显著性区域。当下的一些显著性目标检测算法对于特征信息的利用不充分,使得最终训练得到的模型在鲁棒性和泛化能力方面较差。许多显著性算法都是针对可见光图像的,但是当可见光图像受到阴霾、光照等因素影响的时候,使用热红外图像效果可能更好。考虑到热红外相机在这些因素下受到的影响相对较小,本文针对RGB-T图像进行显著性检测研究,通过结合可见光图
学位
指静脉识别技术凭借其采集方便、安全性高、实时性好、活体检测等优点受到国内外研究团队广泛关注。近年来,指静脉识别领域已经取得了阶段性进展,但在实际应用时,仍遇到了许多问题:(1)受采集技术和采集装置的制约,所捕获的指静脉图像噪声多、清晰度差、对比度低、存在小范围的位移和旋转、类内样本图像之间差异较大;(2)传统指静脉图像特征提取算法对图像质量要求高,对光照变化和位移旋转敏感。因此,本文围绕指静脉图像
学位