论文部分内容阅读
自动语音识别技术是未来人机界面的重要组成部分,主要是通过利用声音达到理解自然语言,身份识别等目的。语音识别技术已经取得显著的成就,而且已有一些比较成功的应用,比如IBM的ViaVoice系统。此类系统,在词汇量不是很大、噪音较小的环境下表现良好,但是在真实的应用环境下,性能就会显著下降。而在未来的人机交互领域应用中,对系统的健壮性就提出了更高的要求,比如:汽车,机场,现场采访方面的应用等等。因此我们需要寻求新的方法,而利用唇动的视觉特征(唇读)与声音特征相结合的方法,已经被众多研究者证明是非常有效的,它不仅可以提高自动语音系统的识别率,而且能使系统更加健壮,更能适应真实的环境。本文主要围绕唇读识别中如何提高唇部特征提取的有效性和提高唇读的识别率方面开展研究。主要工作及创新如下:(1)提出了基于MPEG-4参数的唇部特征提取算法。唇部特征的选择在唇读识别的研究中起着至关重要的作用,本文从MPEG-4中选取了24个同唇部发音有密切关联的人脸动画特征参数,用这些特征参数来描述唇部特征。为了将唇部区域同脸部其它区域区分开,本文采用了6个GMM对唇部区域颜色进行描述;为了能够更好的描述嘴唇的形状和对嘴唇的轮廓进行跟踪,本文根据对唇部区域颜色描述的6个GMM和嘴唇轮廓相关信息创建新的搜索能量函数,并将其用于变形模板中,使用极大似然度算法求出唇部区域的GMM参数和脸部其它区域的GMM参数,有效的将唇部区域同脸部其它区域进行了区分,同时获得ROI(感兴趣区域)的轮廓分布。为了去除人脸整体运动对唇部区域跟踪的影响,利用脸部的4个特征点进行脸部运动的姿态校正,估计出脸部运动的过程。最后根据脸部特征点的运动计算出人脸动画的特征参数值,在实验中得到了较好的效果。(2)提出了基于傅立叶描述子的唇形分类方法。通过AdaBoost演算法获得嘴唇的位置与大小后,首先通过边缘侦测法找出唇形边缘,然后唇形的外形经由傅立叶描述子找出重要特征值,最后转换出来的傅立叶描述子经过正规化处理后,输入到人工神经元网络中进行分类。经实验证明,使用傅立叶描述子来进行唇形分类的正确率可达到85%。(3)提出了基于改进隐马尔可夫模型的唇读识别方法,建立了一个基于改进隐马尔可夫模型的唇读识别系统。隐马尔可夫模型借助其自身的优势使得其在近几年也逐渐的被应用到唇读识别的研究中,但是由于传统隐马尔可夫模型的局限性,使得唇读识别率不是很高。经过研究发现,其主要原因是传统隐马尔可夫模型的状态转移和输出观测值的马尔可夫假设条件对于唇读识别应用有一定的限制和影响。本文提出的方法对传统隐马尔可夫模型的状态转移和输出观测值的马尔可夫假设条件作出了改进,并在传统隐马尔可夫模型的的基础上导出新模型的学习算法,同时基于新的算法建立了唇读识别系统。该系统采用AdaBoost演算法对脸部和唇部进行检测,PCA和LDA对唇部图像像素降维的方法对唇部特征进行提取;矢量量化方法对唇部特征向量进行处理;改进的隐马尔可夫学习算法进行唇读识别。最终实验结果表明,改进的隐马尔可夫模型与传统隐马尔可夫模型在唇读识别上相比较,识别率得到了一定的提高。