论文部分内容阅读
语音识别是人工智能的重要分支和一项重要的人机交互技术,被广泛的应用到各种生活场景中。当前的语音识别系统在纯净无噪的环境下的准确率已经超过了人的听觉,然而,真实应用场景中的复杂的环境因素对语音识别系统的准确度带来的影响,以及在开发阶段训练语音识别模型所消耗的时间成本与计算成本,成为阻碍语音识别发展的难题,因此,快速训练语音识别模型的同时提高识别率是语音识别的重要研究课题。本文主要研究如何在加快神经网络训练速度与解码速度的前提下提高语音识别模型的准确率。神经网络的黑盒性与不可解释性是改进神经网络结构的主要难题,本文使用可视化的方式,对神经网络的内部结构进行研究,基于可视化的结果分析了导致网络精度低与训练速度慢的主要原因。本文的研究工作主要由以下三个部分组成:第一部分,提出了一种基于跨层值传递的深度神经网络。深度神经网络的层数和参数的增加,可以有效的抑制过拟合的现象,而层数过深导致的直接问题是:信息在传递的过程中的损失。本文通过深度神经网络隐藏层的研究,提出了一种基于跨层值传递的神经网络,经验证该方法可以有效的防止信息在传递过程中的损失,提升神经网络的精度。第二部分,提出了一种二值化与线性表示结合的方法加速循环神经网络的训练与解码。循环神经网络内部复杂的结构是导致神经网络训练与解码速度慢的直接因素,本文基于对循环神经网络中的门的研究,提出了二值化与线性表示相结合的训练方法,经验证该方法可以做到在只损失少量精度的前提下加速神经网络的训练与解码。第三部分,将以上两种方式结合,提出了基于二值化与线性表示结合的跨层值传递深度循环神经网络结构,并设计了:常规测试,鲁棒性测试与速度测试三种方式对新的模型进行全面验证,最终结果表明:新的模型可以在加快训练速度与解码速度的前提下提升深度神经网络的精度。最后作者应用本文提出的新模型,实现了一个简单的在线语音识别系统,该系统可以并发的为用户提供大规模连续语音识别服务。