基于神经网络的藏语语音合成技术研究

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:liyin900101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音合成是人机交互的核心技术之一,也是信息处理领域的一项前沿技术。语音合成的目标是将文字序列实时转化为清晰、自然、流畅的语音信息,它的研究对人机语音通讯、智能机器人和语音自动播报等的研制具有十分重要的理论意义和实用价值。随着计算机和多媒体技术的飞速发展,语音合成技术越来越受到社会的广泛关注。特别是近几年来,神经网络方法在机器翻译、文本分类、问答系统、信息抽取及语音识别等领域的成功应用,使得基于神经网络的语音合成技术逐渐成为国内外的研究热点。藏语语音合成是藏文信息处理的重要研究任务之一,但相对汉语和英语,藏语语音合成技术的研究还处于发展阶段。目前,藏语语音合成系统的实现主要采用波形拼接技术和基于HMM模型的统计参数语音合成技术。考虑到波形拼接技术对存储容量要求高且系统构建周期长,而统计参数语音合成技术的合成语音的韵律表现不佳,本文通过分析藏文的结构特点与拼读规则,采用Seq2Seq模型加注意力机制的方法,研究了基于神经网络的藏语语音合成技术。文章主要从以下三个方面对藏语语音合成技术进行了研究:(1)从语音合成系统的前端出发,基于传统藏语文法统计分析了藏语字结构和拼读规则,给出了藏文构件分解算法。同时,采用基于注意力机制的Seq2Seq模型,给出了藏文文本的韵律预测方法。(2)从语音合成系统的后端入手,基于Seq2Seq模型设计了藏语语音合成的声学模型,重点研究面向藏语语音合成的编码器和解码器。最后,通过Griffin-Lim算法生成藏语语音波形。(3)通过对比基于语料库的藏语语音合成系统和基于神经网络的藏语语音合成系统的性能,验证了本文方法的有效性。实验数据表明,语料规模较大的条件下基于神经网络的藏语语音合成系统能够取得更好的合成效果。
其他文献
TiAl合金以其优越的物理和力学性能,以及轻质等优点成为未来高性能汽车发动机排气阀的首选材料.如何开发低成本高质量、大批量生产TiAl合金排气阀的技术成为当前的一个研究热
泡菜是一类历史悠久、风味独特的传统乳酸菌发酵食品。其制作工艺可追溯到2000余年前,《诗经·小雅·信南山》就记载着“中田有庐,疆场有瓜,是剥是菹,献之皇祖”,其中的“菹
经济发展与用电需求密切相关。根据2000~2016年黑龙江省经济发展数据,"十五"、"十一五"期间全省经济保持较快发展;但自2014年起,全省经济增速明显放缓,"十二五"期间全省年均
《左传》作为先秦叙事庞博的史学论著,不仅保存了大量的古代史料,也记录了当时历史人物丰富多彩的言论。而值得注意的是,在这些言论中有大量的韵文出现,这些韵文可分为“引用
目的分析腹腔镜下与经腹广泛性子宫切除术治疗早期子宫颈癌临床疗效。方法选取2010年2月‐2012年1月该院收治的早期宫颈癌患者90例,将所有患者随机分为两组,各45例。对照组采
蓝莓是一种具有极高经济价值的新兴世界性小浆果树种。本文从蓝莓建园、品种选择、栽植、水肥管理、修剪和病虫害防治等技术方面进行了详细介绍,旨在为蓝莓在怀宁县及周边地
结合甲醇燃料的理化特性,分别在495Q和JT468Q汽油发动机进行了燃用高比例M85甲醇汽油燃料和全甲醇燃料的对比试验.试验结果表明:直接燃烧定比例甲醇燃料时,功率和扭矩都略有
我国当前应对历史街区的“失活”现象还是主要以政府主导的方式为主,社区参与不足;且出于抢救性保护的要求和政绩需要,通常项目周期较短,项目间连续性差。而诸多研究表明,社