论文部分内容阅读
随着社会经济的高速发展以及全球化进程的加快,全球范围内的人员流动增加了拥有不同语言背景的人相互交流的机会,自动语种识别作为语音识别的第一步显得十分重要。全球人工智能的快速发展也促进了各项技术的升级,语音技术作为人类信息交流的桥梁技术,引得越来越多的科研工作者投入到实现良好语音交互的行列中。包括边境地区的无线电通信安全问题,也可采用语音识别的方法进行监测,实现快速精准的语种识别对后续所有与语音识别相关的工作显得极为重要。本文围绕广播的语音语种识别,对语种识别方法进行了详细的讨论与研究,主要工作如下:1)根据语种识别领域的对数据集的要求,采集了老挝语、普通话、缅甸语、泰国语和越南语共5种语言约25小时的数据集,并通过与其他数据集对比研究,确认数据的可靠性。2)结合语音处理的方法,建立广播信号识别数据集,利用深度学习对调频广播信号扫频录音保存后音频文件进行识别,以此来识别信号与非信号。3)采用I-Vector的方法建立可靠语种识别的基线系统,为后续试验的改进提供可靠的理论依据。4)以深层神经网络为基础,针对短时变长的语音信号,设计了两种采用底层声学特征作为输入的深度学习的语种识别方法。一种是基于门控循环单元(Gated Recurrent Unit,GRU)的语种识别,分析了不同参数的网络结构、不同的底层声学特征对在3种数据集中的表现,确定了合适的网络参数和结构,找出适合深度学习网络使用的特征;另一种是结合自注意力机制(Self-attention)和深层卷积网络的模型(Deep Convolutional Neural Networks,DCNN),对其在变长的语音语种识别中的运用进行了分析研究。对比了传统的声学特征模型与采用深度学习的区别,结果表明采用深度学习的方法可以达到比使用I-Vector更好的识别效果。