论文部分内容阅读
基于隐马尔可夫模型的语音识别技术已进入识别性能平台,但鲁棒性能低,不适合于复杂环境下的应用。人类语音的产生和感觉本质上均是双模态的(音频和视频),语音信号是由发音器官产生的,不同的发音可能具有不同的嘴型。在语音识别过程中,音频信息和视频信息具有很好的互补性,因此近来年音频-视频混合语音识别(AVSR)得到了重视。AVSR技术的关键问题是脸部视频特征的提取和音、视频特征的结合方式。而如何准确地将人脸和嘴唇实时检测和定位,是视频特征提取的关键。该文通过分析和学习诸多前人在人脸特征点定位方面的算法,提出了一套简单有效的人脸嘴部区域的自动定位和分割方法,并在此基础上进行视频特征的提取。
1、彩色头肩像中人脸的检测和定位。该文分析了人脸的特点和对算法的要求,介绍了一些常用的人脸检测算法,同时指出他们存在的局限性,提出了一种设定参数门限的基于高斯肤色模型的人脸检测及定位算法。在算法测试中,从实验数据可以看出,与传统的算法相比,改进的门限设定算法能够大幅地减少运算量,使算法的实时性得到较大提高,并且仍保持较好的性能。
2、基于人脸初定位的嘴部区域(ROI)定位。该文在两种主流研究方法中,选择了基于象素的利用统计理论的方法——主元分析法(PCA),提出在Cr和Gray两种空间基于PCA的最小剩余误差能量的ROI定位算法,并在算法中引入了受限窗扫描策略,通过实验可以看出,这种改进后的算法,不仅尽可能地满足了实时性的需要,而且大大改善了主元分析法对光照敏感的不足,使算法的鲁棒性得到了较大的提高。
3、视觉特征的提取和评价。该文在ROI准确定位的基础上,通过ROI在特征子空间的投影,实现了视觉特征的提取,并对所提取的特征进行正确性和有效性两方面的评价。在此,引入了相似度P作为特征准确性评价的度量值,并通过特定人孤立数字的DTW识别实验验证了基于以上算法提取的特征的有效性。
4、以MATLAB6.5为开发语言,对各种算法进行了实现与测试。实验结果表明,该文提出的算法具有受亮度影响小,定位精度高,鲁棒性好的优点,而且对单模态的视觉语音的识别实验也取得相对较高的识别率,这为下一步进行的双模态语音识别的研究和应用打下了基础,具有一定的理论和应用价值。