论文部分内容阅读
在过去的几十年中,语音识别技术取得了巨大进展,特别是1984年Petajan开拓性的将视觉信息引入语音识别研究后,听觉视觉双模态语音识别(Audio-visual bimodal Speech Recognition,AVSR)技术比单纯的听觉语音识别在性能上有了显著提高。
但是视觉信息(主要指口型信息)的提取和处理却存在一些困难和缺陷,为了克服这方面的困难并尽量保持口型信息对语音识别的辅助作用,本文根据语音产生的双模态性,从挖掘语音信息和视觉信息固有关系的角度提出了从语音信号映射出类视频口型特征的新的口型特征的提取方法。
本文以汉语普通话为例,对从语音信号中提取用于辅助语音识别的类视频口型特征的方法进行了探讨性的研究。本文首先分析了汉语发音的特点,并根据声母和韵母的发音特点分别对声、韵母的口型进行了聚类分析,再按类定义了表征类视频口型特征的一组参数。接着对语音信号特征进行分析比较,选取了LPCC倒谱系数作为声学特征,并对特征参数提取的实现方法进行了较详细的说明;另外还对映射方法进行了分析比较,选取了具备映射动态特征功能和适应时变特性能力的Elman递归神经网络作为映射工具。然后利用前面的准备工作进行具体的实验研究,通过一系列的实验、实验结果分析比较、实验改进、再实验过程,得到了较好的音视频映射结果,也验证了从语音信号中提取用于辅助语音识别的类视频口型特征的可能性。