论文部分内容阅读
跨语言语音转换是人工智能研究中的一个热点方向。它通过对源说话人的语音进行分析,利用语音转换技术得到所需要的目标语音并且在音质上具有源说话人特征。藏族是中国人口较多的少数民族之一,如果能借助深度学习算法研究汉语到藏语语音的转换技术,能够很好的促进藏族地区同胞和汉族群众之间的交流,对于文化资源丰富的藏族能起到有效的保护。本文以研究汉语普通话到藏语拉萨话语音转换为目标,釆用语音识别和语音合成结合的方法,实现了基于深度神经网络(Deep neural network,DNN)的汉语到藏语的跨语言语音转换系统。并在此基础上对合成的藏语语音和语音转换后的音质进行了主、客观评测。本论文的主要工作与创新如下:1.跨语言语音转换中基于DNN的语音识别方法研究。通过对汉语语音识别的研究,发现DNN在模型训练过程中截取其中部分已经训练好的网络进行特征训练,得到的新特征在语音识别效果上相比于梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征更优。首先,对DNN的模型预训练、参数修改、模型优化方面进行了研宄,并在Kaldi平台上搭建了用于语音声学特征提取的深度神经网络模型,利用MFCC特征提取鲁棒性和区分性更强的深层语音特征,并用这些新特征训练实现基于DNN-HMM的声学模型搭建语音识别系统,最后,深度神经网络提取的特征最好的效果是比单音素模型的MFCC特征在单音素错误率和词错误率上分别有19.62%和27.12%降低。2.汉语到藏语的语音转换系统的实现。选择了一个藏语800句语料库作为训练语料,首先,运用EM算法和ML准则通过语料训练得到谱参数、时长和基频的隐马尔可夫模型;然后使用语境决策树聚类算法对模型完成聚类,获得合成语音的预测模型;在合成语音时,结合上下文相关标注和预测模型获得其上下文相关隐马尔可夫模型。最后,利用参数语音合成器STRAIGHT来合成出藏语语音。通过对转换后语音音质评测,在给定汉语的情况下,判断合成后藏语语义表达的平均正确率:其中单个字的为65.40%,词的为82.15%,句子的为98.15%。