论文部分内容阅读
唇读是一种仅靠唇部运动传递的视觉信息识别说话人言语信息的技术,其也被称为视觉语音识别。唇读技术不受声音信号信噪比高低的影响,能够克服语音识别在复杂场景下的不足,因此开展对唇读技术的研究能够拓宽人机交互的应用场景,具有重要的研究意义和使用价值。唇读涉及计算机视觉、自然语言处理等领域相关技术,是一种综合性较强具有一定的挑战性的学科。随着人工智能技术的快速发展,基于数据驱动的深度学习为唇读技术提供了新的发展方向,唇读系统能够取得远超人类的识别准确度,但仍不能满足实际使用需求。同时唇读系统通常有巨额参数量,极大限制了唇读的使用场景。本文以唇读核心技术为突破,以数据集实现和系统开发为主要工作,在经典唇读结构上进行改进,提出轻量化高性能唇部运动特征提取、音频特征重建及特征融合方法,从实战出发设计并实现了一个基于深度学习的高实用性唇读系统。本文主要工作和创新点如下:(1)提出一种高扩展性唇部运动特征提取方法。改进时域特征提取结构并引入通道注意力模块提升特征提取精度,两种改进方法都能嵌入到大部分主流的特征提取网络中,具有良好的通用性及扩展性。(2)实现了一个未来可在移动端部署的轻量化唇部运动特征提取模块。通过使用轻量化卷积网络,结合高扩展性唇部运动特征提取模块,实现了轻量化的唇部运动特征提取。在牺牲较小性能大幅降低模型复杂度,极大拓宽了唇读系统的使用场景。(3)提出并实现了视觉特征与重建音频特征融合建模的唇读流程。在解决训练集中音频信息浪费问题的同时,充分利用现有数据集中的音视频数据进行训练,通过对不同状态空间的特征进行融合建模,大幅提升了唇读系统的准确性。