论文部分内容阅读
语音识别就是利用计算机将语音波形信号转化为文字信号,近些年来随着深度学习的进步,这项技术得到了快速的发展,语音信号的识别率得到了很大的提升。在工业、通信、汽车电子等方面得到了广泛的应用。随着近年来中越关系的升温,对越南语的相关人才和技术的需求也在不断增加。所以本文对语音识别领域现有的各种建模方法进行研究,引入端到端技术应用在越南语语音识别上,工程实现一个越南语连续语音识别平台。基于此平台可以加快现有语义识别技术成果在实际中的转化应用,不断促进该领域的研究发展。论文的主要工作包括:(1)研究并实现基于矩阵分解优化深度神经网络的声学模型。本文首先对越南语的书写和发音规律进行研究,实现越南语的音素集合划分,为后续语音识别特征提取、声学模型、语言模型、解码模型的构建奠定机理理论基础;其次在传统隐马尔可夫-深度神经网络模型基础上,重点研究了基于矩阵分解优化的越南语声学模型,能够对越南语声学特征进行更为精细刻画,且运算速度快;再次,分析了越南语的书写特点,并指出构建基于音节的语言模型的困难,研究提出了一种基于字节单元的语言模型。最后在选用的语料库上搭建了越南语连续语音识别系统。实验结果表明,基于矩阵分解优化深度神经网络的方法相对于已有主流算法,获得了更为优异的性能。(2)研究并实现了基于变换器(Transformer)的端到端越南语连续语音识别系统。首先研究了端到端系统的发展和建模的优势分析,并给出了注意力机制建模方法;其次,在自注意力和互注意力机制基础上,研究并实现了基于堆叠编译码器结构的变换器模型,详细给出了编码器网络构建、译码器网络构建、位置信息建模算法和模型构建准则;最后构建了基于堆叠编译码器变换器模型的越南语连续语音识别系统,将该模型的端到端系统与其他两种端到端模型进行比较,并且系统讨论了不同识别单元对变换器模型系统性能的影响。相比于传统声学模型、语言模型、解码器等框架结构的语音识别系统,该端到端系统具有结构简单、要求更少越南语先验专业知识等特点,具有较好的应用前景。(3)研究并实现了通用的越南语连续语音识别平台框架。首先根据对越南语的识别率、实时性要求及系统服务功能分析,详细设计了语音识别平台的总体框架,即采用云计算服务的软件架构;其次对系统的数据结构进行了详细的分析与设计,包括语音识别相关表、文件存储相关表、批量任务相关表、引擎及Worker配置相关表和系统基础配置相关表;再次对语音识别平台进行具体实现,包括用户账号管理、智能语音识别、识别结果分析、系统配置和系统管理等。本文设计的语音识别平台框架具有很好的通用性和扩展性,根据用户的具体需求提供定制化的解决方案,能从可靠性、快速响应及易用性等方面满足用户的需求。