【摘 要】
:
研究表明,基于隐马尔可夫模型的语音合成(HMM-based speech synthesis)中结合整体方差(Global variance, GV)模型的参数生成方法对于克服生成语音参数中的过平滑现象有较好的作用。然而该GV模型中并没有考虑到各阶语音参数之间的相关性。对于线谱对(LSP)这样的参数,相邻阶LSP参数之间的差分对于频谱包络有很强的影响。鉴 本文提出了建立在相邻阶LSP差分上的GV
【机 构】
:
中国科学院自动化研究所 模式识别国家重点实验室,北京 100080 名古屋工业大学 计算机科学系,
论文部分内容阅读
研究表明,基于隐马尔可夫模型的语音合成(HMM-based speech synthesis)中结合整体方差(Global variance, GV)模型的参数生成方法对于克服生成语音参数中的过平滑现象有较好的作用。然而该GV模型中并没有考虑到各阶语音参数之间的相关性。对于线谱对(LSP)这样的参数,相邻阶LSP参数之间的差分对于频谱包络有很强的影响。鉴
本文提出了建立在相邻阶LSP差分上的GV模型,即频域delta LSP上的GV模型,并推导了结合此模型的参数生成算法。相比于传统的方法,提出的方法通过增大频域delta LSP上的GV似然度,能够更好地克服生成语音参数轨迹上的过平滑现象。实验结果表明,提出的参数生成算法使得合成语音的自然度有了进一步的提高。
其他文献
在人类的语言交流中,语言事件,如各个音段,声调,韵律边界等都是信息传递的载体,所有的这些语言事件 都为人类的语言交流起着不可或缺的作用。一直以来,人们通过听觉感知,信息熵等一些方法来研究各个语言事件在交流中所起到的作用。本文提出用互信息的功能负载的方法来度量每个语言事件所包含的信息量。主要以韵律的层级结构为研究对象,分析了不同韵律层级的作用,并与以前音段的信息量作了初步的对比,结果表明边界信息 在
人们在学习外语时无可避免地会受到母语的影响。汉语和日语在语音节奏上存在着较大差异,这种差异会影响 日本学生的汉语发音学习。本研究的主要目的旨在建立一种针对节奏的声学参数评判体系,来衡量日本留学生的汉语节奏受日语的影响程度。为此,我们收集了不同母语背景的三种发音数据:日本学生的中文、日文发音数据,以及中国学生的中文发音数据。从发音数据中我们提取了包括%V、ΔC、ΔV、rPVI、nPVI、短时平均能量
本文提出了一种基于主动外观模型(AAM)特征和异步发音特征DBN模型(AF_AVDBN)的逼真可视语音合成方法。在 AF_AVDBN模型中,发音特征(如嘴唇、舌体和声门/软腭的状态)之间允许在一定约束范围内异步,以更好地模拟协同发音现象,为人类真实发音过程建模。在模型训练中,以42维感知线性预测(PLP)特征作为音频特征,视频特征为嘴部图像的80维AAM特征。在听视觉数据库上训练好模型参数后,对于
帧规整对数后验概率是目前公认最有效的发音质量的度量。本文证明了该度量反映了当前发音对应的声学模型 与概率空间中声学模型的混淆程度,使其在评分任务上存在着严重的缺陷。因此提出了可训练的音素相关的后验概率变换;并研究了线性和非线性sigmoid变换,同时给出线性变换的显式全局最优解和非线性变换的梯度下降解法。在全国采集的普通话水平测试现场考试的篇章朗读题型上进行实验。实验结果表明:当概率空间包含所有音
压缩感知(compressive sensing,CS)是一种基于信号稀疏性的采样方法,可以有效提取信号中所包含的信 息。本文提出了一种基于CS过程的语音增强新算法。算法利用语音在离散余弦变换(discrete cosine transform,DCT)域下的稀疏性,采用Hadamard矩阵对带噪语音进行压缩测量,通过改进的正交匹配跟踪(orthogonal matching pursuit,OM
传统基于线性预测(LP)声码器采用简单的脉冲加白噪声激励模型,合成语音有严重的机器声。为了提高传统线 性预测声码器的合成音质,本文对逆滤波后的残差信号进行建模。浊音段采用两段激励模型,通过最大浊音频率将频域划分成两部分:一组正弦信号构成的低频段和高斯白噪声高通滤波后构成的高频段。清音段采用传统的高斯白噪声激励模型。通过与传统脉冲激励模型和LF激励模型的对比,基于逆滤波的谐波噪声激励模型在合成音质上
随着我国广播电视事业的快速发展,对广播电视进行广告监测的重要性越来越突出。本文提出了一种基于音频语谱图像识别的广告检索方法,该方法把每个广告片段的音频转换成语谱图像,并通过boosting训练算法,从中提取可区分的、适合索引的特征以训练分类器。检索时,通过特征对齐,采用基于EM的迭代方法识别最匹配的广告。 实验结果表明,该方法可以快速准确地从广播电视中检索到广告,而且具有很好的鲁棒性,基于该方法开
机读音标SAMPA(Speech Assessment Methods Phonetic Alphabet)即计算机可读的音标,用计算机可读的ASCII字符表示语言的发音。本文提出了一种藏语的SAMPA标注的设计方案SAMPA-T(Tibetan),列出了藏语的辅音和元音对应的国际音标与SAMPA-T标注,并实现了面向SAMPA-T的藏语字音转换,可应用于藏语语音合成等藏语语音信息处理中。
为获得具有通用性的声调处理系统,本文运用计算语言学方法,基于管辖音系学理论提出跨语言声调处理算法。经分析天津话和丹阳话变调算法结果,可得出结论:基于管辖音系学的变调自动化处理模型具有跨方言算法内核 一致性、代码精简性以及可移植性等特点。这些特点均源于该音系学理论特有的声调表征模式以及声调音系过程解释机制。
本研究从音高,时长和音强三个方面,分析了100首五言绝句和七言绝句在朗读中表现出的声学特点。绝句内部 主要包含联间边界,句间边界和句内边界三个不同层级的韵律边界。通过对绝句声学特征的统计分析表明,随着绝句内部韵律层级的提高,边界处音高低音点的重置程度增大,边界前音节时长缩短,而无声段长度变长;两种绝句各句音高低音点和高音点都有各自的下倾语调,并会以联为单位收紧音域。两种绝句各句内音节强度值逐渐减小