论文部分内容阅读
手语是由手形、手臂运动并辅之以表情、唇动以及其他体势表达思想的视觉语言,是聋哑人进行信息交流的最自然方式。在移动网络带宽有限且手语视频数据量大的情况下,要使聋哑人和正常人一样利用手机进行实时双向视频通话,就必须保证在手语视频可理解性的同时最大化压缩手语视频,为此,研究人员提出了感兴趣区手语视频编码方法。感兴趣区手语视频编码方法的前提条件是快速分割出手语视频中的面部、双手和背景区域。在进行手语视频分割时,面临的主要问题是如何解决因处理大数据量运算所造成的实时性问题。细胞神经网络(Cellular Neural Network, CNN)由于具有高速计算能力,以及与人类视觉系统(Human Visual Systme, HVS)很多的相似性,使得它特别适合图像/视频处理。因此,有必要研究CNN在手语视频分割中的应用及其相关算法。本论文研究了细胞神经网络(Cellular Neural Network, CNN)在快速手语视频分割中的应用,本论文具体工作如下:(1)研究了基于CNN的肤色检测在手语视频分割中的应用。为了减少不同照明条件对肤色检测的影响,在肤色检测之前,采用gray world方法对RGB颜色空间进行了颜色均衡。接着,对YCbCr颜色空间数据处理方法进行了优化。再利用肤色信息在YCbCr颜色空间采用阈值法,进行基于CNN的手语视频分割。相比于同类算法,该方法简单快速,能够适应实时的手语视频分割。(2)研究了基于CNN的运动检测在手语视频分割中的应用。该方法采用差分法对手语视频进行分割,该算法复杂度低,且直接面向灰度图象,能够获得较多的运动信息,从而使运动对象分割具有更好的精确性和语义性。(3)研究了一种基于CNN的将肤色和运动信息结合起来的手语视频分割算法。该方法首先利用肤色信息特征进行基于CNN的肤色检测,检测出手语视频中的肤色区域;然后对肤色检测结果,利用帧差法进行基于CNN的运动检测,获得初始的手势区域。由于提取出的视频对象轮廓容易出现“空洞”和“重影”现象,很难保证其完整性,所以,再对其进行中值滤波。最后采用形态学处理方法,进行空洞填充和边界平滑,最终得到手语视频中人的面部和手部区域。实验表明,该算法能够快速准确地检测出人的面部和手部。