基于DNN的汉语到藏语跨语言语音转换的研究

来源 :西北师范大学 | 被引量 : 0次 | 上传用户:yygyogfny
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言语音转换是人工智能研究中的一个热点方向。它通过对源说话人的语音进行分析,利用语音转换技术得到所需要的目标语音并且在音质上具有源说话人特征。藏族是中国人口较多的少数民族之一,如果能借助深度学习算法研究汉语到藏语语音的转换技术,能够很好的促进藏族地区同胞和汉族群众之间的交流,对于文化资源丰富的藏族能起到有效的保护。本文以研究汉语普通话到藏语拉萨话语音转换为目标,釆用语音识别和语音合成结合的方法,实现了基于深度神经网络(Deep neural network,DNN)的汉语到藏语的跨语言语音转换系统。并在此基础上对合成的藏语语音和语音转换后的音质进行了主、客观评测。本论文的主要工作与创新如下:1.跨语言语音转换中基于DNN的语音识别方法研究。通过对汉语语音识别的研究,发现DNN在模型训练过程中截取其中部分已经训练好的网络进行特征训练,得到的新特征在语音识别效果上相比于梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient,MFCC)特征更优。首先,对DNN的模型预训练、参数修改、模型优化方面进行了研宄,并在Kaldi平台上搭建了用于语音声学特征提取的深度神经网络模型,利用MFCC特征提取鲁棒性和区分性更强的深层语音特征,并用这些新特征训练实现基于DNN-HMM的声学模型搭建语音识别系统,最后,深度神经网络提取的特征最好的效果是比单音素模型的MFCC特征在单音素错误率和词错误率上分别有19.62%和27.12%降低。2.汉语到藏语的语音转换系统的实现。选择了一个藏语800句语料库作为训练语料,首先,运用EM算法和ML准则通过语料训练得到谱参数、时长和基频的隐马尔可夫模型;然后使用语境决策树聚类算法对模型完成聚类,获得合成语音的预测模型;在合成语音时,结合上下文相关标注和预测模型获得其上下文相关隐马尔可夫模型。最后,利用参数语音合成器STRAIGHT来合成出藏语语音。通过对转换后语音音质评测,在给定汉语的情况下,判断合成后藏语语义表达的平均正确率:其中单个字的为65.40%,词的为82.15%,句子的为98.15%。
其他文献
为提高电镀厚金层的存储性能,采用优化镀层预处理工艺方法,利用换向脉冲电镀技术在铍青铜试件上制备镀厚金层,并研究不同预处理工艺对长时间存储条件下镀层结合力的影响规律;
传统的作物洗根采用手洗,容易损坏根系,而且自动化程度不高,给农业科学工作者的工作研究带来极大的不便,由此引发了对洗根试验机的研究与探讨。ANSYS是一个多用途的有限元法
本文基于相对海平面和绝对海平面的概念明确了相对海平面变化是影响沿海地区的直接因素;系统回顾了中国沿海未来相对海平面变化的三种预测方法并对其实质进行了分析。在充分
<正>2015年,云南省检察机关将牢固树立历史使命感,切实增强担当精神,以着力保持经济平稳健康发展、着力推进现代农业建设、着力推进生态环境保护、着力推进民族团结进步事业
异构数据的集成问题是当前数据处理领域的热点问题,它的目标是解决多源异构数据的集成,实现高效的数据共享。随着数字海洋的提出,海洋数据量增大,加上海洋数据异构性较强的特
<正>2015年是全国检察机关深入开展规范司法行为专项整治工作的一年,也是案件管理部门强化职能作用、推动案件管理工作全面提升的一年。全国检察机关案件管理工作的总体思路
<正>近年来,随着检察机关对公安机关刑事执法监督力度的不断加大,公安机关在规范化执法方面有了明显改善。但是,由于受各种因素影响,检察机关对公安机关刑事执法监督工作还不
在实验室条件下,研究了不同浓度(0,0.05 mg/L,0.15 mg/L,0.45 mg/L和1.35 mg/L)的石油,对海水中细菌数量和酶活性在短期(96 h)和较长期(28 d)内的影响,结果表明:(1)海水中的
在水稻移栽田进行试验研究,结果表明:52%吡嘧·二氯喹可湿性粉剂防除水稻移栽田一年生杂草的有效成分适宜剂量为312~390 g/hm2;在水稻移栽后7~15 d、稗草二至三叶期施药,全草
<正>很多女人说,他不浪漫。那浪漫究竟是什么?科学证据告诉我们,对浪漫而言,真正重要的是体贴的心意。我最近进行了一项大规模的网上调查,以研究浪漫行为的心理学。在作家雷