【摘 要】
:
近年来,随着高清视频采集设备在生活中的普及,单目相机的数据量得到了迅速的增长。如何处理这些数据,从中获得有价值的信息,是计算机视觉领域的一个重要问题。数据中的人物姿态与行为,因其具有巨大的潜在商业价值,成为研究者重点关注的对象之一。近年来随着深度卷积神经网络在多个计算机视觉任务上取得的突破,行人检测、人体姿态估计、动作识别等与人相关的任务也受到越来越广泛的关注。本文聚焦于单目彩色图像数据中的二维人
论文部分内容阅读
近年来,随着高清视频采集设备在生活中的普及,单目相机的数据量得到了迅速的增长。如何处理这些数据,从中获得有价值的信息,是计算机视觉领域的一个重要问题。数据中的人物姿态与行为,因其具有巨大的潜在商业价值,成为研究者重点关注的对象之一。近年来随着深度卷积神经网络在多个计算机视觉任务上取得的突破,行人检测、人体姿态估计、动作识别等与人相关的任务也受到越来越广泛的关注。本文聚焦于单目彩色图像数据中的二维人体姿态估计与三维人体姿态估计,以及二维人体姿态估计在行人动作识别任务中的应用,主要研究内容如下:(1)提出了一种结合人体语义解析信息的二维人体姿态估计方法。在复杂场景下进行人体姿态估计仍然是一项具有挑战性的任务。作为一项与人体姿态估计密切相关的任务,人体语义解析能够为姿态估计提供非常有价值的信息,以帮助姿态估计模型提升性能。本文提出了一种由粗到精的双分支深度卷积神经网络模型,模型先通过两个神经网络分支分别得到人体姿态和人体语义解析的粗糙预测结果,而后使用卷积神经网络对人体姿态信息和人体语义解析信息进行融合,得到更精细的预测。实验表明通过提取互补的有效特征,模型能够给出更准确的姿态估计结果。(2)提出了一种结合人体结构先验信息的三维人体姿态估计方法。利用强大的深度卷积神经网络,二维人体姿态估计取得了巨大的成功。然而三维人体姿态估计仍然是一项具有挑战性的任务,三维人体姿态估计任务的目标是从彩色图像中预测出目标人物的三维坐标。由于二维到三维映射具有歧义性,现有的方法往往无法准确预测三维坐标。本文使用一种由粗到精的模型来逐步预测三维坐标,同时结合人体的结构先验设计了约束以指导模型生成合理的预测结果。在Human3.6M数据集上的实验结果表明,本文提出的方法优于基准方法。(3)提出了一种由人体姿态引导的行人动作识别模型。行人是自动驾驶场景下的主要关注目标,识别行人动作对于自动驾驶有着重要的意义。本研究工作提出了行人动作识别的问题,并提出了用于行人动作识别的PARD数据集,为了解决这一问题,本文设计了一种使用多区域注意力机制的深度卷积神经网络模型来处理驾驶场景下的视频数据,并利用人体姿态估计的先验来丰富特征表示。实验结果表明,本文提出的方法在PARD数据集上的表现超过了P-3D、3D Resnet、LSTA等现有通用动作识别模型。
其他文献
乐谱是用符号来记录音乐的方法,最初是以纸张为载体的。随着电子技术的发展,纸质乐谱可被扫描或拍摄成为乐谱图像,解决了纸质乐谱不易保存、复制、分发等弊端。计算机及互联网技术的浪潮,促进了各种音乐应用的兴起,而能被计算机理解的音乐文件是这些应用的数据基础。本文以拍摄或扫描的乐谱图像为研究对象,通过图像处理与识别的算法,将其转化为计算机能理解的MIDI文件,并基于上述算法构建了乐谱识别软件系统,具体工作如
无人驾驶是人工智能系统在人们生活中的重要应用之一,具有巨大的发展前景。图像语义分割技术作为无人驾驶系统中的重要技术之一,为无人系统分析道路可通行性提供了技术支持。目前,大部分网络模型采用相同的感受野提取图像语义特征。这将导致模型丢失大量的尺度信息,降低模型的分割效率。此外,为提高分割精度,模型常常具有庞大参数量。这不仅导致计算速度缓慢,还增大了对硬件资源的需求量,不利于模型在无人系统中的应用。本文
多标签分类的目的是为一个实例分配多个与之相关的类别标签,其在数据挖掘和机器学习领域是重要的一个学科分支并有着广泛的应用和研究。同传统的二分类问题相比,多标签分类问题主要的挑战在于标签相关性的利用和高维特征的约简。针对这两方面的研究有很多,但是现有的大多数算法仅仅解决了其中一个问题。为此,本文提出两个改进算法,在进行特征选择的同时考虑标签相关性,最后将研究成果应用于安卓恶意应用检测中。具体的工作包括
车辆再识别(Vehicle Re-ID)指的是根据给定车辆图像在跨摄像头车辆数据库中搜索相同ID(Identity)车辆图像的任务,在公共安全和智能交通领域具有广阔的应用前景。车辆再识别有两个主要挑战:由于车辆品牌的影响,会导致相同车型不同ID的车辆外观相似性高(类间相似性高);因为车辆的刚体特性,使得车辆的不同姿态外观差别大,导致不同姿态相同ID的车辆图像外观相似性低(类内相似性低)。其中,姿态
在工业化的连铸钢板坯生产过程中,钢厂针对连铸坯质量的评价与分类依然主要依靠人工经验。本文基于连铸坯冷酸蚀图像中的缺陷进行预处理、分割以及分类识别,为后续研发连铸坯缺陷评级系统提供准备工作。在预处理时,中值滤波和维纳滤波对图像中的噪声可以有效去除,但多次滤波会导致图像信息的大量损失。为解决这一问题,提出一种开关结构下的快速加权中值—维纳滤波器,以减少图像滤波过程中信息的损失,并通过与中值滤波、维纳滤
电弧增材制造技术以电弧为热源熔化金属丝材,基于离散/堆积的成形原理,并沿预设路径逐层沉积制造出3D实体零件,具有沉积效率高、生产成本低等优点。双丝CMT电弧增材制造以两根异种丝材作为填充材料,在CMT增材工艺中熔滴过渡和焊丝回抽相结合的基础上,快速生成多元成分可调合金体系,解决焊丝定制成本高、周期长等难题。本课题以2系Al-Cu焊丝和5系Al-Mg焊丝为填充材料,基于双丝CMT电弧增材制造工艺对A
为了解决在野外环境下测量炮口附近的弹丸飞行姿态时,攻角纸靶法精度较低,阴影照相法要搭建复杂的光路系统的问题,基于三目视觉原理,通过激光摄像法直接拍摄弹丸实像来测量弹丸的飞行姿态,既可以得到精度较高的弹丸飞行姿态,同时也不用搭建复杂的光路系统,相对于双目视觉姿态测量方式也提高了测试结果的稳定性。在对相机的成像原理、相机标定、三目姿态测量模型以及各坐标系间的空间转换关系等分析的基础上进行了三目视觉弹丸
随着“互联网+”时代的降临,办公自动化系统(OA)在信息与技术的不断演变过程中也在不断完备。如何解决企业项目管理、人员管理以及沟通管理等一系列需求,达到其信息化战略目的,打造一款能集项目、人员、沟通等多方管理一体化协作系统平台具有重大的实际意义。本文将针对某企业协作系统,分别从系统架构、系统功能模块和系统测试等多方面进行设计与实现,并研究基于Lucene的Solr检索算法和基于CB的推荐算法为系统
随着城轨列车技术的发展,地铁成为人们日常生活中不可或缺的交通工具,为保证人们出行安全,地铁的安全性不容忽视。车底状态检测是地铁检测的重要环节之一,但地铁段检、厂检会存在漏检情况。当前国内还没有一套完整的地铁底部复现技术和基于图像自动检测技术,因此本文对地铁底部做了相应的研究。主要工作内容如下:(1)对地铁底部图像拼接与关键部件螺栓检测系统进行总体架构设计,在需求分析的基础上,确定系统架构、系统工作
随着机器视觉的发展与应用,将视觉检测技术运用于工业场景中已经成为智能制造业的热潮。钢水浇筑在生产过程中,存在很多不可控的质量问题,在制造过程中会出现部分划痕、形变等瑕疵,而操作人员需要近距离判断检测浇筑钢爪的合格与否,这样的检测方式效率过低。为此本文分析和应用了基于深度学习的目标检测框架进行训练,实现形态各异、多角度的钢爪识别与检测。论文主要完成以下工作:(1)分析了本文检测目标的实际环境和需求,