论文部分内容阅读
随着计算机与智能信息处理技术的迅速发展,语音在人机交互中发挥着越来越重要的作用,其中语音合成是实现人机语音交互的关键技术之一。现阶段,统计参数语音合成以及单元挑选与波形拼接语音合成是两种最为主流的语音合成方法。前者利用统计声学模型预测声学特征,并使用参数合成器重构语音,具有合成语音平滑流畅、系统尺寸小、实现多发音人与多风格合成的灵活度高等优点;后者从一个预先录制好的语料库中挑选合适的单元序列,将其波形拼接得到最终的合成语句,由于使用了自然语音波形,可以获得更高的合成语音音质与自然度。本文的研究工作主要围绕后者开展。在单元挑选与波形拼接语音合成方法中,基于代价函数的单元挑选是其技术核心。现有的单元挑选算法通常使用备选单元与目标单元间的上下文属性差异、声学参数距离、声学模型输出概率等度量来设计代价函数与单元挑选准则。另一方面,现阶段对于语音合成系统的最终性能评估仍然依赖于平均意见分(Mean Opinion Score, MOS)、倾向性测听等主观评价方法。而在语音合成系统的主观评价结果与用于系统中单元挑选的客观准则间往往存在不一致性,这一点严重制约了单元挑选与波形拼接方法合成语音自然度的进一步提升。本文以基于隐马尔科夫模型(Hidden Markov Model, HMM)的单元挑选与波形拼接语音合成方法为研究对象,通过收集测听者对于合成语音的主观评价与反馈数据(即感知数据)来优化单元挑选准则,以改善其与主观评价的一致性,提高合成语音的自然度。本文研究的融合主观评价与反馈的语音合成方法主要包括基于感知数据的音库扩充方法、合成语音错误检测方法、使用基于感知数据的对数似然比度量的单元挑选方法。本文的主要安排如下:第一章为绪论,简要介绍现阶段主流的语音合成方法,重点介绍基于HMM的单元挑选与波形拼接语音合成的主要原理及核心技术,阐述本文研究出发点。第二章着重回顾现有的融合主观评价与反馈的单元挑选与波形拼接语音合成方法,讨论其各自的优缺点。第三章重点介绍基于感知数据的音库扩充与合成语音检错方法。首先,使用人工判定为自然的合成语音片段扩充已有的合成音库,对比分析了不更新模型与模型更新两种音库扩充后的合成系统构建方案;其次,基于发音空间模型与SVM分类器构建针对韵律词的合成错误检错器,并基于此检错器对基线合成系统的多输出进行重打分。在一个面向导航应用的中文路名合成任务上,实验验证了上述方法对于提高合成语音自然度的有效性。第四章重点介绍使用基于感知数据的对数似然比(Log Likelihood Ratio, LLR)度量的单元挑选方法。该方法通过收集感知数据分别建立表征自然合成语音与非自然合成语音的统计声学模型,合成时使用从这两个模型中推导出的LLR度量取代传统的似然值度量构建代价函数以指导单元挑选。实验结果表明该方法相对传统方法可以提高合成语音的自然度。此外,在LLR度量的使用方式上,重打分可以取得比直接替换目标代价更好的合成质量。第五章对全文进行总结,归纳本文的创新点并对后续研究工作进行展望。