论文部分内容阅读
在人机交互中,通过语言传递信息是最为方便和有效的方式之一。传统的基于音频的语音识别在噪声环境中或复杂背景下,识别性能会急剧下降。与音频相对应的嘴唇运动的图像序列包含有丰富且可挖掘的话语内容信息。本文通过对人脸图像中嘴唇区域的精确分割,进而提取讲话者唇部的视觉特性,最后通过对所提取的特征进行分类,实现了语言分类和识别,并对一些相关的算法和技术进行综合和改进,使得语言分类识别系统性能更加优越。