论文部分内容阅读
随着物联网的发展,各种智能家电如音像设备、照明系统、安防系统、自动控制门窗及环境自动调节系统、多功能家用机器人等,通过家居网络平台构建了舒适的智能家居环境。智能家居的普及大大方便了人们的生活。智能家居网络平台中的语音控制技术提高了人与智能家居的信息交互能力和方便性。随着语音识别技术的应用,越来越多的智能家电逐步支持语音控制的能力,目前最新的研究是如何让家居网络平台使用对话系统,让智能家居设备使用与家庭成员相同特征的语音和使用者进行交互,使这些设备具备个性化语音发声的能力,从而提高智能家居使用的趣味性和幸福感。由于家庭成员的语音特征各不相同,此方面的研究仍是一个难题。语音合成技术是语音技术研究的一个重要组成部分,个性化语音生成是语音信号处理领域中一个相对较新的分支。通过个性化语音生成技术,就可以使用目标对象少量的语音数据,生成出具有目标对象个性化特征的语音。目前基于智能家居环境中个性化语音生成技术的研究,存在着当目标对象只有有限的采样语音数据情况下,由于样本数据库较小及计算能力有限,生成出来的语音有机械感,在声调和频谱上失真,语音的自然度和相似度指标低,更不能实现转换输出多种语音或多种方言。所以,研究个性化语音生成技术具有重要的应用价值。目前,在个性化语音生成方法中,以Tokuda、Huang为代表的基于隐马尔可夫模型(Hidden Markov Models,HMM)建模是主流的语音生成方法,但该方法中的混合激励模型中的参数采用了经验值估测,导致生成参数不精确。并且该模型中源说话人自适应特征训练过程不够优秀,损失了说话人的声学特征差异,导致频谱语音特征参数不准确,因此语音的自然度和相似度指标低,需要进一步研究如何提高合成语音的质量。而且在智能家居语音生成技术中,使用多方言和智能家居实现人机对话,方便使用和具有亲切感,因此研究多方言的转换技术具有十分重要的意义。基于以上情况,本文围绕个性化语音生成技术主流的合成模型进行研究,提出了自适应方法和声音转换新技术,主要的研究内容如下:为了提高个性化语音生成的自然度和相似度,减少语音的失真程度,本文改进了混合激励模型中参数的获取方法,以及混合激励模型中的各个带宽的浊音周期性比例提取方法,并将混合激励参数与频谱参数相结合,改进了隐马尔可夫模型的混合激励机制,该机制能明显地改善生成语音的质量。最后,实验结果表明了本文改进方法的正确性和有效性。针对隐马尔可夫模型中,源说话人自适应特征训练过程不够优秀,导致损失说话人声学特征差异的问题,本文提出了基于时变双线性函数的频率弯折方法,改进了源说话人自适应特征训练过程。通过将传统方法与频谱弯折方法进行实验对比,表明本文提出的频率弯折方法可以使源语音频谱更接近目标语音频谱,减少说话人声学特征的损失,所生成的语音在自然度和相似度上均得到提升。为了解决智能家居语音生成技术中多方言的转换问题。本文在分析了经典说话人转换技术的基础上,提出了基于神经网络的跨方言说话人转换系统框架,基于该框架,使用一种预训练方法,完成了基于语音序列感知的神经网络建模。本文实验是以普通话和上海话的转换为例,验证了可以解决个性化语音生成技术中多方言的转换问题。实验结果显示该方法是可行的。本文的主要创新研究成果如下:第一,本文首次系统地分析比较了在混合激励模型中两种周期性比例的提取方法:梳状滤波器、归一化相关系数,并通过基于隐马尔可夫模型的语音合成实验,证明了使用混合激励模型合成的语音质量得到了显著地提高。第二,本文提出的基于频率弯折的说话人自适应方法,可以显著提升个性化语音生成的自然度和相似性。相较于传统方法,本文的方法具有如下创新点:1)在源说话人和目标说话人间引入了最小化加权对数谱距离准则,取代使用最大似然准则对源说话人特征进行转化,这一准则的应用提高了所生成的个性化语音在感知上的相似度。2)引入双线性弯折函数对频域和时域进行平滑转化,函数采用基于帧的弯折因子,更好地保留了语音时变的特征。3)重新训练后的源说话人隐马尔可夫模型获得了更好的初始化。第三,本文首次提出了跨方言语音特征学习模型的方法和准则,实现了不同地方语言的说话人转换。其创新点主要体现在以下三个方面:1)将独立于语言的频率弯折方法应用在跨方言的说话人转换中,从而大大地降低了所需的训练数据量和计算复杂度;2)在神经网络训练中采用了预训练,从而使神经网络的权重能得到比随机初始化更好的起点,从而提高了神经网络训练算法的收敛速度;3)提出了基于语音序列感知的训练准则,该准则能最大限度地减少序列级别的错误,大大提升了跨方言说话人语音转换的性能。本文在个性化语音生成的相关技术方面进行了创新和改进,为智能家居环境中研究语音技术提供了研究思路和应用借鉴。