论文部分内容阅读
人体姿态估计是计算机视觉中的一个重要研究领域,在人们对体验感、新鲜感、安全感不断追求的当前,人体姿态估计及其应用具有极大的商业效益和人文意义。本研究课题着眼于由Mask R-CNN图像分割算法而延伸的经典姿态估计算法,针对算法实际应用存在的问题进行相应改进,从而提高骨骼关节点检测与识别的准确性和鲁棒性。为了达到研究目的,本文针对数据库和实际应用中图像,通过深度学习技术,定位并辨识图像中人眼、手肘、盆骨、脚踝等各个关节点,并辅以对应连接,从而以人体关节点骨架的形式表征人体状态。本文主要工作如下:(1)改进了基于全卷积网络的姿态估计方法。对于Mask R-CNN算法中得到的感兴趣区域特征图,首先将其输入到卷积层中得到特征图(记为特征图一);然后利用基于注意力残差模块和数据旁路的支路算法(记为支路一)、基于混合空洞卷积的FCN支路算法(记为支路二)进行更深的特征提取和融合;再将两支路的结果叠加后输入至小型FCN中进行姿态估计。其中,为了最大化支路模块网络中所有层之间的信息流,在支路一的输入处,将两个注意力残差模块进行前后级联并进行像素级别的叠加,配合数据旁路连通网路中的前后层,使得网络中每一层模块都接受来自前几层模块的特征映射。实验仿真结果表明,网络输出的信息更加多样性,能够更好地捕捉不同视野,其准确性得到提高。不仅在简单场景下有效地解决了检测关节点混乱的问题,而且能够更好地适应复杂场景。(2)改进了基于区域生成网络的人体姿态估计方法。舍弃预先定义锚框的区域生成网络机制,采用通过图像特征来预测生成锚框的方法。该方法的基本思路为:将特征提取得到的特征图输入到预测锚框的网络中,通过预测概率高于指定阈值的锚框位置和位置处最可能的锚框形状,来生成稀疏而且形状任意的锚框,同时用特征自适应模块来修正特征图使之与锚框形状更加匹配,从而不失准确性;对生成的锚框进行区域池化操作,得到感兴趣区域特征图;再将感兴趣区域特征图输入至小型FCN中;对最终特征先用反卷积进行分辨率复原再进行两倍的线性插值上采样;最后,将关节点的位置建模为一个独热二进制掩码预测关节点类型。实验仿真结果表明,与原方法相比,极大地减少了锚框的数量,不仅减少超参数的设计带来的误差,更是增加了检测宽高比、大小悬殊等特殊目标的鲁棒性。