论文部分内容阅读
语音合成技术旨在实现文本等输入信息到语音波形的转换。统计参数语音合成方法以及单元挑选与波形拼接方法是现阶段实现语音合成的两类主流方法。前者具有系统自动构建、合成语音平滑流畅等优点。但是受制于参数合成器等因素,其合成语音的自然度仍不够理想。在统计声学模型指导下使用帧级长度的小尺度单元进行单元挑选和波形拼接,是一种改进统计参数方法合成语音自然度的有效途径。传统小尺度单元挑选方法使用隐马尔科夫模型(hidden Markov model,HMM)进行声学建模和代价函数计算。而近年来,以深度神经网络为代表的深度学习方法已经在统计参数语音合成的声学建模中体现出了相对HMM的性能优势。因此,本文围绕基于深度学习的小尺度单元拼接语音合成方法开展研究工作。一方面,研究了用于指导小尺度单元挑选的神经网络声学建模方法,通过使用深度神经网络与递归神经网络等模型结构,提升了传统HMM模型的建模精度与合成语音质量;另一方面,提出了一种结合单元挑选和参数生成的语音合成方法,利用帧拼接方法实现了激励特征波形的生成,改善了传统统计参数合成方法中对于相位等激励信息建模能力的不足,提高了合成语音自然度。本文的研究工作具体如下:首先,本文提出了基于深度神经网络的帧拼接语音合成方法。该方法使用深度神经网络构建声学模型用于帧挑选中的目标代价与连接代价的计算,相对传统HMM模型提高了模型的预测精度与合成语音的主观质量。其次,本文研究了基于递归神经网络的小尺度单元挑选与波形拼接合成方法。该方法一方面采用结合长短时记忆单元的递归神经网络进行声学建模以改善深度神经网络的时序建模能力,另一方面引入多帧挑选策略以减少拼接点,取得了比基于深度神经网络的帧拼接方法更好的合成语音自然度。最后,本文设计实现了结合单元挑选激励生成的参数合成方法。该方法对提取的激励特征波形进行参数表征和声学建模,在合成阶段使用帧拼接方法生成激励特征波形的高频成分,同时使用参数生成方法预测滤波器特征,最终通过滤波合成语音波形。实验结果表明了该方法在改善统计参数方法合成语音自然度上的有效性。