论文部分内容阅读
手语通过手形和位置的组合变化来传递信息与表达语义,是听障人群的主要沟通工具。手语合成就是把自然语言翻译成手语的技术,为听障人与正常人之间的沟通搭起了桥梁。基于视频拼接的手语合成就是将手语数据库中的手语词视频按输入文本拼接成新的手语视频。由于待拼接的视频片段,可能存在动作差异。为了得到更自然流畅的合成手语,需要生成中间过渡帧自然过渡前后手语动作。现有的依赖于过渡形态库的中间过渡帧生成方法,需要大量的人工工作。因此,设计更自动化的过渡帧生成算法具有重要的研究价值和应用价值。本文基于对手语运动特点的分析,利用Kinect设备采集数据,重新设计了手语合成数据处理方案,并重点研究其中的过渡帧生成算法。本文提出的手语合成基于Kinect采集颜色信息、深度信息、骨架信息构建手语视频数据库,先经过预处理得到过渡帧数和骨架过渡路径,再联合网格形变和图像插补算法生成中间过渡帧,从而得到最终合成的手语视频。本论文主要的研究内容如下:1、研究手语视频数据预处理。作为过渡帧生成的准备工作,预处理包括对输入的文本分词,选择最佳拼接位置,估计过渡帧数以及计算骨架过渡路径,得到的结果将输入到后续过渡帧生成模块。2、研究网格形变算法。手语词视频的中间过渡帧应该符合人体运动规律。为了使形变更好地模拟动作变化的过程,提出一种局部控制的近似刚性形变算法,即在传统的形变能量中加入稀疏位移约束和平滑约束,构建具有近似刚性、局部性、平滑性和形状感知性的形变模型,并用"局部-全局"迭代算法求解。利用预处理得到的过渡骨架对待拼接手语视频帧作形变操作,得到的前向和后向形变序列作为后续图像插补操作的输入。3、研究图像插补算法。因为形变只是针对单源视频帧的操作,为了使过渡帧在符合人体运动规律的同时表现信息的过渡过程,本论文提出一种形变辅助的图像插补算法。利用形变得到的前向和后向形变序列,考虑源相似性和时间相关性,设计一种迭代优化策略进行图像插补。为了更好地保留图像细节,综合利用颜色和梯度距离度量图像块的相似性。最终融合前向和后向形变序列,得到合成手语的中间过渡帧。本论文在手语视频数据上验证了所提出的合成算法的性能,结果表明使用本论文的算法能够自动地合成平滑并且真实的手语视频。