【摘 要】
:
2D人体姿态估计是计算机视觉中的基础但是又具有挑战性的问题。姿态估计的目的是定位出人体的二维平面的关键关节点的坐标(例如:头部,肩膀,脚踝等等)。它有非常多的运用,例如:行为识别、游戏娱乐、电影姿态捕捉、人再识别等等。人体姿态估计是一个早在上个世纪70年代就开始研究的课题,但是人体姿态估计一直难以达到可以应用的水平。随着大规模数据集Image Net以及卷积神经网络Alex Net等的兴起,卷积神
论文部分内容阅读
2D人体姿态估计是计算机视觉中的基础但是又具有挑战性的问题。姿态估计的目的是定位出人体的二维平面的关键关节点的坐标(例如:头部,肩膀,脚踝等等)。它有非常多的运用,例如:行为识别、游戏娱乐、电影姿态捕捉、人再识别等等。人体姿态估计是一个早在上个世纪70年代就开始研究的课题,但是人体姿态估计一直难以达到可以应用的水平。随着大规模数据集Image Net以及卷积神经网络Alex Net等的兴起,卷积神经网络和姿态估计相结合,这时候姿态估计的才真正具有一定的可以应用水平。但是,目前的最前沿的方法往往需要很宽和很深的卷积网络,这带来了巨大的参数和巨大的浮点数运算。虽然这些方法有很高的正确率,但是一个主要的缺点是,这种巨大的模型往往在推理中非常耗时,使得这些模型比较难地在移动设备或者其它小功率嵌入式设备中布置。本文的重点在于设计一个轻量级的人体姿态估计网络,这个网络的运算量和参数量都比较小,同时正确率也不会大幅度下降。本文的主要工作总结如下所示。(1)设计了多种量级的人体姿态估计网络。其中最轻的姿态估计网络所需的每秒浮点运算数(FLOPS)仅为0.64G。其中的一款轻量级网络在MPII数据集上与最先进的网络(SOTA)相比有着更少的运算量以及更高的准确率。(2)网络整体结构是由多个编码器和解码器重复堆叠而成,更具体而言里面包括了以下结构:特征提取(下采样)、恢复分辨率(上采样)。整个网络结构通过多次地特征提取以及恢复分辨率来提取多维度的特征。(3)使用了适合轻量级网络的Mobile Net V2作为网络结构中的特征提取模块.(4)本文最大的创新点在于使用了像素混洗(Pixel shuffle)作为网络结构的恢复分辨率的模块。这结构替代转置卷积作为解码器,这操作相对传统的解码器结构可以减少一半的参数量。本文用了详细的公式推倒阐述了这种替代是合适的。(5)为了使网络可以加速收敛,减少梯度消失等问题,使用了网络的跳跃结构以及网络的中继监督的方法来保证训练的稳定。(6)对本文提出的创新网络结构进行实验,通过数据证明每一个结构都有其设计的考量。通过实验,可以证明提出的结构在参数量、运算量、准确率、收敛速度都做了不错的平衡。另外,还比较了学术上常用的模型压缩方法,例如:网络剪枝、低秩近似、网络蒸馏技术,证明了本论文相对于直接对成熟的网络进行粗暴的压缩在参数量和准确率上都有优势。
其他文献
随着量子信息技术的发展,人们逐渐认识到单一量子载体在许多应用场景具有局限性,因此出现了由不同量子载体构成的混合量子系统。以金刚石NV色心为例:NV色心具有很多优点,比如电子自旋态易于读出和操控,室温下相干时间长等,是最受欢迎的固态量子体系之一,在量子计算、精密测量、量子网络等领域具有重要的应用前景;然而,NV色心在原位电学调控方面遇到了挑战,在多比特扩展(即实现芯片上不同色心之间的耦合)方面遇到了
精神分裂症是一种严重的精神疾病,其连接障碍假说提出该疾病与神经元的异常连接有关。静息态功能磁共振成像显示,基于血氧水平依赖信号的自发神经活动在脑区之间相互关联,并组织成空间分离的功能网络,而这些功能网络之间信息交流的异常与精神分裂症中已知的认知功能受损有关。因此,基于磁共振成像的脑网络功能连接分析有潜力揭示精神分裂症的发病机理与指导早期诊断和预防疾病。然而,传统脑网络分析技术仍有亟待解决的科学问题
机器听觉指的是机器通过分析声音信号获取信息的能力。随着智能化时代的到来,机器听觉受到日益广泛的关注。其中一个重要的任务是声音事件识别(Sound Event Recognition,SER)任务。声音事件识别指通过分析音频信号,判断其中的发生的物理事件信息。目前主流的声音事件识别方法是基于深度学习的,但在数据方面存在两个问题:第一,深度学习依赖有标注数据,而声音事件的标注成本很高,难以获得足量有标
近年来,FPGA被广泛用于各个领域,也使得其安全问题变得越来越重要。当前,硬件木马是一种对FPGA有很大威胁的攻击方式,其具备高隐蔽性,强破坏力的特点,在硬件正常工作或者电路出厂测试时都不会被激活,只有在特定条件下才会生效。而其一旦生效,则会破坏用户的电路或者窃取电路中的信息。目前对硬件木马较为有效的检测方式是对网表或RTL代码进行分析,但是对于大部分使用者而言,一般只能接触到比特流文件,想要检测
铁路事业在我国经济建设过程中发挥着重要的作用,传统的货运铁路仍需大量人力资源的投入,而随着计算机视觉的发展,该部分的可优化空间正逐步增加。本文通过针对货运列车定点停车需求的分析,发现该需求可以由计算机视觉中的目标检测技术实现。然而由于实际场景中目标物体会因光照、角度、磨损等因素影响而难以辨认,因此目标检测目前仍是一个颇具有挑战性的任务。而如何设计能够迅速,准确且泛用的特征也成为了该领域的研究重点。
伴随着现代工业生产规模的不断扩大,工业生产已经进入了大数据时代,在日常的工业生产流程中,每一个作业环节都会产生许多需要记录的生产数据值,以此作为衡量产品是否合格的标准。对于许多机器较为陈旧的工厂而言,其设备并不具备相应的数据接口,大多数时候都必须依靠人工识别手动抄录的方式来完成对生产数据的记录,这样高度重复枯燥乏味的工作无疑是对人力资源一种极大的浪费,使得工厂的生产效率大打折扣。为解决这一问题,迫
监察体制改革下对于高校公权力行使者如何监督,学界知之甚少。高等教育领域的公权力监督问题似乎一直游离在人们的视野边缘,尽管实践中已然设立了对高校公权力行使进行监督的相关部门和机构。不仅学界对这一问题关注较少且所提建议有如隔靴搔痒,不得要领,实务人士也或不能很好描述这一实践图景,或基于各种原因而三缄其口。随着国家《监察法》颁布,各级监察委员会有序运转,国家监察体系总体框架初步建成,监察体制改革进入面向
目前,互联网处处都有推荐系统的身影,如电商、新闻、短视频等等。信息过载情况下,推荐系统能快速从商品库中筛选出用户可能感兴趣的商品,不仅帮助用户高效获取信息,还能提高商家的收益。推荐系统已经成为互联网应用中的核心技术之一,也是推动互联网增长的强劲引擎。本文从推荐系统应用场景中的几个普遍存在的实际问题出发,提出了一些新的思想与算法。具体内容如下:(1)首先,在推荐系统中,常常为每个用户计算一个嵌入向量
随着通信方式与场景越来越复杂,对微波信号的性能提出了更高的要求。微波振荡器是产生微波信号源的重要器件,其性能好坏将直接影响无线系统的各项性能指标和传输性能。本文针对振荡器的相位噪声性能开展深入研究,基于相位噪声理论模型,探索新型选频网络拓扑结构并应用到反馈式振荡器之中,相位噪声性能皆超过国内外文献所报道的同类器件水平。主要研究工作包括以下三方面:1、提出了一种基于源/负载耦合选频网络的单端新型振荡
我国是一个农业大国,“三农”问题关乎国计民生。十九大上提出乡村振兴,这是着眼于解决“三农”问题的重要战略部署,是针对我国不平衡不充分发展现状做出的重大举措,是实现农村全面、长效发展的有力措施。乡村振兴是全方面振兴,意味着乡村中的文化、政治、经济、社会、生态文明和党的建设都要实现振兴。农民是新时代乡村振兴的主力军之一,农民拥有着参差不齐的生态意识,农民是否拥有良好的生态意识关乎农民身心健康,关乎农村