论文部分内容阅读
随着人工智能飞速发展,大量智能设备出现在人们身边,语音作为人机交互的重要方式之一,人们迫切地需要将语音信号处理相关技术应用到智能设备中。目前,自动语音识别系统的识别率虽然已经超过人类,但这仅限于在安静的环境中,并不能在环境背景嘈杂的现实环境中起到相应的作用。因此,能去除背景噪音和其他说话人干扰的语音分离技术成为是研究的热点。强调从任务的输入端到输出端都由一个算法完成的端对端语音识别技术将更有应用前景。目前的语音分离和识别算法是基于传统声学特征实现的,没有过多考虑特征提取过程中造成信号的信息损失和引入虚假信息对系统性能的影响。针对这个问题,本文借助卷积不变性可以克服语音信号多样性的特性,以语音信号为研究对象,探究以语音信号采样点作为输入的深层一维卷积网络对声学特征提取、语音分离和语音识别这三个方面的影响。1、针对传统声学特征提取过程中,傅里叶变换、离散余弦变换等提取方法造成的信号高频信息和相关性信息丢失的问题,本文设计了基于深层一维卷积网络的声学特征提取模型,克服了传统声学特征提取时造成信息损失和模块繁琐等问题,可以提取出语音信号更深层次的声学特征,并给出实验验证;2、针对目前语音分离系统以传统声学特征作为输入,模型训练不能影响特征提取过程等问题,本文设计了一维卷积网络和长短时记忆网络结合的语音分离系统,将声学特征提取和模型训练结合在一起,采用多类回归的方法从混合语音波形中恢复目标说话人的语音,并在双说话人数据集上进行实验;3、针对目前端对端语音识别系统以传统声学特征作为输入,以及长短时记忆网络参数量大、运算速度慢等问题,本文设计了基于因果扩张卷积的端对端语音识别模型。使用具有时序性的因果卷积和相同卷积层数下可以提供更大感受野的扩张卷积相结合代替长短时记忆网络,搭建端对端语音识别系统,并在中文语音数据集上进行实验。本文研究发现,深层一维卷积网络可以提取语音信号更本质的特征,提升了语音分离系统和语音识别系统的性能。因果扩张卷积在语音识别上的成功应用,有望于取代长短时记忆网络成为语音信号领域最优秀的模型,这也为语音信号处理提供了新思路。