论文部分内容阅读
唇语识别是指通过捕捉人在说话时的唇部运动分析出其所说的内容,其在人机交互、语音识别、视频监控等领域都具有广阔的发展前景。传统上,唇语识别系统的研究内容主要包括嘴唇的检测与定位、唇部区域特征提取和唇语识别三个环节。但是由于前期复杂的图像预处理过程和人为设计的特征具有耗时、经验性强、不完备的特点,再加上分类器的训练难度较大,使得传统的唇语识别方法发展缓慢,并且难以满足现实的应用需求。近年来,深度学习引起了越来越多研究者的关注,并在许多领域都取得了突破性的进展,如图像识别、人体动作识别、语音识别和自然语言处理等。深度学习可以直接从原始数据中逐层学习到更加抽象的特征,避免了传统的人工特征选取和设计高性能分类器的过程,可以真正实现端到端的完整识别系统。本文重点展开利用深度学习方法应用于唇语识别的研究,提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)与循环神经网络(Recurrent Neural Network,RNN)的混合神经网络结构。整个唇语识别的研究可以分为以下四个部分:首先对本文使用的数据库进行预处理。主要可分为两部分:首先利用随机采样法从视频中抽出固定帧数的图像。然后进行唇部区域的定位与提取,使用AdaBoost算法检测出人脸区域,利用Dlib库进一步标定出人脸68个关键点,通过提取出用于描述嘴唇的5个关键点,精确地获取本文的研究对象,即嘴唇区域。然后利用CNN直接提取静态唇部图像的空间特征。本文通过预训练Alexnet网络模型,利用其8层的网络结构将局部特征整合成全局特征,然后提取fc7层的空间特征向量用于描述嘴唇区域图像。提取到的空间特征具有鲁棒性强和容错力强的特点。由于在视频中,除了视频帧内的静态图像信息还存在帧间的时序信息。所以在CNN的基础上,本文增加RNN结构来提取序列间的时间特征。为解决传统RNN在序列较长时存在的梯度消失和梯度爆炸的问题,本文选用RNN的改进模型——长短期记忆结构(Long short-term memory,LSTM)来捕获唇动序列之间的时间特征。进一步地,本文研究了双向LSTM(Bi-directional Long Short-Term Memory,BiLSTM)在相反两个方向从唇动序列之间学习时序特征的能力。此外,加入dropout技术用于缓解网络在训练过程中出现的过拟合问题。最后将BiLSTM学习到的时序特征输入全连接层,使用softmax分类器输出每个类别的概率值,并选取概率值最大的作为最终识别结果。本文结合CNN对静态图像和RNN对序列数据的处理能力,同时捕捉空间维度和时间维度上的唇动信息。利用自制的实验数据库进行验证,实验结果表明,本文选取的混合神经网络模型应用于唇语识别系统具有较好的性能。