论文部分内容阅读
人体姿态估计是当前计算机视觉中重要的组成部分,是动作识别的关键步骤。随着深度学习的迅速流行,使得实现快速且准确的人体姿态估计任务成为可能。研究如何使得人体姿态估计任务更好的根据现实需求应用于视频中逐渐成为当前具有重要现实意义的研究内容。该文探索了人体姿态估计算法中所涉及的处理速度及精度之间平衡性的相关因素,最后形成了一种有效的人体姿态估计方法。目前已经存在多种人体姿态估计方法,包括单人姿态估计方法和多人姿态估计方法,其中单人姿态估计方法的研究已经比较成熟,当前主要研究方向是多人姿态估计方法。针对多人姿态估计在视频中的应用,大多数方法特别关注准确度而忽略实际应用中对方法处理速度的要求,本文所做的主要工作是对多种现有的具有代表性的单人和多人姿态估计方法进行研究,通过多组对比实验分别对这些方法的处理速度和准确度的相关指标进行探索和分析,提出可行的相关改进想法有针对性的改进了相关方法,并与原方法进行对比实验,从而得出了影响人体姿态估计准确度和处理速度之间平衡性的若干因素,由此基础上该文提出了一种通过改进Dense Net网络进行人体姿态估计的方法。所提出的基于改进Dense Net网络的人体姿态估计方法,可针对图像中由于人的数量不确定对处理速度的影响,以及不同人体或人体自身部位的相对大小差异等尺度因素影响导致的通用关键点检测方法检测效果不佳等问题,其设计了一种改进的Dense Net网络结构用于人体姿态估计。该方法采用一种单阶段的端到端的网络结构,其利用深度卷积神经网络进行特征提取,在卷积网络末端通过特定的尺度转换结构得到6种不同尺度的特征图,使得网络能够同时使用不同层次的特征进行多尺度关键点检测,有效地提高了检测精度。该方法采取自底向上的方式,能让网络进行多人姿态估计任务的处理速度得到保证。实验表明该文提出的方法与其他几种方法在综合性能的比较上占据优势。为探索人体姿态估计方法的处理速度与精度之间均衡性提供了一种有效的新方法。