论文部分内容阅读
语音和文字在人类交流与沟通中起着不可替代的作用,语音是人类交流最自然的交互方式,文字在存储、阅读时则更为便利,将语音转换成文字一直是语音识别领域的研究热点。汉语是全球使用人数最多的语言,中文语音识别时不仅需要考虑大量的同义字和同音字,还需要考虑声韵母以及音调带来的发音不准等问题,识别复杂,难度大。本研究基于深度学习方法进行语音识别系统的研究,从而建立可靠准确的语音到文字转换模型,主要包括以下三方面的工作:(1)对中文语音数据预处理以及特征提取方法进行分析,发现使用汉明窗作为信号处理的窗函数可以为后续特征提取提供更高质量的频谱;对比语谱图特征、滤波器组特征以及MFCC特征的细节信息与实际建模结果,发现使用语谱图特征作为声学模型的输入,识别精度更高。(2)针对传统语音识别系统训练复杂、数据标注费时费力以及准确率不高等问题,将深度学习与CTC算法结合搭建声学模型。使用卷积神经网络搭建模型,有效的加快了训练速度,减少了空间参数。使用CTC算法进行似然度优化,避免了数据需要标注的问题,降低了模型训练的复杂程度。通过使用批归一化,残差模块等优化手段,提高了声学模型的精度;利用模型微调进一步的提高了单人模型的准确率。(3)针对端到端语音识别系统对数据量要求过高的问题,本文采用非完全端到端框架,声学模型实现语音到拼音的转换,语言模型实现拼音到文字的转换,牺牲一小部分解码速度的基础上提高了准确率。使用神经网络语言模型替代主流统计语言模型,解决了空间参数过大,数据过于稀疏的问题,提高了拼音到汉字转换的准确率。本研究基于开源中文语音数据集搭建离线语音识别系统,侧重于声学模型的搭建与预测,将卷积神经网络与CTC算法有效结合,使用批归一化,残差连接模块等优化策略,有效的降低了语音到拼音转换的错误率,测试集错误率在15%左右。使用神经网络语言模型,作为拼音到文字的转换模型,大大降低了精度损失,使得最终的识别准确率在84%左右。本研究最终形成了离线语音识别系统软件平台,采用服务端-客户端的交互方式,方便语音数据集的收集与底层模型的更新,极大的提高了用户的使用体验。