论文部分内容阅读
一、引言
从20世纪90年代开始,人类开始进入信息社会,也称信息化社会。信息作为继物质和能源之后的第三资源,在商业发展中起着主导作用。语音是人们交流信息的主要手段之一,用数字化的方法进行语音的传送、存储、识别、合成等构成了目前商业应用中最重要、最基本的组成部分之一。也正因为信息化社会的高速发展,媒介资源、存储资源也就显得更加宝贵。因此,压缩语音信号的传输带宽一直是人们追求的目标。在贝尔实验室的Homer Dudley于1939年发明了第一个声码器之后,语音压缩编码技术进入了一个新的时代。CCITT已经制订了几个国际化的语音编码标准,这些标准规范并推动了语音编码的研究,但是也可以看出这些标准的编码速率都比较高;而美国联邦标准LPC-10以及LPC-10e尽管能够在2.4kbps合成出清晰可懂的语音,但合成语音在自然度等方面并不令人满意。MELP是Alan V. McCree等人提出的,是在原来LPC基础上,吸收了多带激励以及原型波形内插等编码方法的思想发展起来的,使得编码方法更好的利用语音的发音机制,可以在低速率下得到较高质量的语音。
二、LPC方法的缺点及MELP方法概述
混合激励模型主要是在二元激励的基础上,针对二元激励模型存在的一些问题做了相应的改进。由于二元激励模型中浊音采用周期脉冲作为激励,清音采用白噪声作为激励,所以它具有很多的缺点:
1.语音分类太粗糙,激励信号只有两种选择,要么是随机噪声,要么是周期性的脉冲。但人的发声器官并没有那么简单,实际情况是在大多数语音帧中既含有浊音成分又含有清音成分,把既含有浊音又含有清音的语音帧按周期性激励源合成,非周期能量没有得到恢复,主观听觉上会感觉合成语音有明显的“嗡嗡”声;反过来,如果将含有浊音的激励源按噪声激励源合成,听起来就会感觉语音嘶哑。
2.在一帧内采用固定的基音周期不能精确的描述语音激励。由于语音信号的时变特性,即使是在一帧语音内,基音周期也并非一成不变的。把一帧合成语音的周期作为固定值处理进行语音合成的时候,会失去原始语音的周期性,引入过强的周期性,造成蜂鸣声。
3.在浊音的时候采用简单的周期信号不能刻画激励信号的形状,会失去很多说话人的特征。这是因为在每个周期内不仅只有一个主脉冲,还有很多辅助的脉冲,这些脉冲对体现说话人的特征和提高自然度是很重要的,而二元激励的方法则忽略了这些信息。
由于上面的原因,经典二元激励LPC声码器的合成语音可以使人明白谈话的内容,但是它的自然度很差,带有很重的金属声和卡嚓声,难以辨别说话人,主观听觉质量不好。
鉴于上面LPC模型中存在的一些缺陷,在后来的ME模型中有针对性的进行了改进。对于LPC中对语音的分类和激励过于简单的问题,ME模型采用了周期脉冲和白噪声的混合激励;对于帧内基音周期的时变特性,把语音分为浊音、清音和抖动浊音,对于抖动浊音采用了非周期的脉冲激励;针对二元激励LPC忽略了激励信号的形状信息,在ME模型中编码了激励信号的傅立叶谱的幅度。而且,ME模型还加入了脉冲散布滤波器和自适应谱增强滤波器来提高语音质量,下面我们就来看一下ME模型中的几个新特征。
三、MELP方法中的新特征
1.混合脉冲和噪声激励。MELP算法采用多带混合激励模型。语音被分为5个固定的频带0Hz~500Hz,500Hz~1000Hz,1000Hz~2000Hz,2000Hz~3000Hz, 3000Hz~4000Hz,在每个子带上分别对语音进行浊音强度(Voice strength)的计算,依据其浊音强度和基音搜索的结果来判断该子带语音是清音、浊音还是抖动浊音。合成时,根据各子带的属性和浊音强度对通过该子带滤波器的噪声、周期脉冲和非周期脉冲进行加权求和,作为激励。采用混合激励,可以减少合成语音中的蜂鸣声。
2.非周期脉冲。混合脉冲和噪声激励可以消除LPC声码器的嗡嗡声,但是总是无法消除一些孤立的,短暂的音调,会产生一些类似电流声的单音噪声。这是由于在清/浊的过渡段声门脉冲不是很稳定,从而导致激励没有严格的周期性。在过去的LPC方法中,这些都是当作浊音来处理,从而会引进一些很奇怪又很刺耳的音调。在ME模型中,针对这个问题,对基音周期进行抖动,抖动的幅度服从以基音幅度的±25%为上下限的均匀分布。这样就打破了激励信号的严格的周期性,很好的描述了在声门激励不稳定的时候产生的脉冲的特性。
由于这种抖动如果加在强浊音帧的激励中的话,就会破坏语音的周期性,也就是破坏了该帧激励的惟一的参数——基音周期,会使得语音质量急剧变坏,这也是引入抖动浊音这一分类的根本原因。所以要准确的判断,是否可以加抖动,这可以通过计算语音帧的自相关和多峰度来决定。
多峰度的大小描述了峰值是否明显。
3.余量信号的傅立叶谱幅度。我们知道各种对语音信号的激励的编码方法,包括多脉冲、码激励、二元激励等都是为了更好的描述余量信号的信息。在浊音中,余量信号所包含的信息量要远远少于原始语音信号,首先在幅度范围上就小于原始语音信号;而且包含较少的几个脉冲,形状上也要比原始语音信号要简单的多。但是,余量信号也是有一定形状的。如果只是采用周期性的脉冲作为激励,虽然可以描述余量信号的周期性信息,却失去了余量信号的形状信息,这就导致合成语音质量的下降。
从时域来描述余量信号的形状信息是比较困难的,因为对于按周期合成的语音来说,周期内的余量信号的长度不定,这就会给量化带来很大的麻烦,所以可以从频域来描述余量信号的形状信息。在ME模型中,采用对各基音周期谐波处的傅立叶级数幅度进行量化的方法来描述余量信号的形状信息。通过这种方法可以改善LPC合成语音中语音嘶哑等弱点,而且提高了抗噪声的性能。
4.自适应谱增强。为了使合成语音的频谱能够在共振峰所处的频带与原始的语音信号匹配得更好, 我们引入自适应谱增强。这是因为从时域看,合成语音两个主激励之间会衰减的比自然语音要大的多;而从频域看,LPC滤波器的共振峰要比自然语音的共振峰要缓和。为了解决这个问题, 我们引入了自适应谱增强滤波器。它是一个零极点滤波器, 由两部分组成。第一部分是一个全极点的滤波器, 用来增加每个共振峰的带宽,由LPC滤波器在每个 前面乘以一个因子A=0.8得到;第二部分是为了减小前面全极点滤波器的低通效应而引入,为一个全零点的滤波器, 由LPC滤波器在每个 前面乘以一个因子A=0.5后求倒数得到,可以使处于波谷的信号值有所提升。传输函数可以写为:
5.散布脉冲。为了改善在非共振峰频率处合成语音与原始语音的匹配,ME模型引入了散布脉冲滤波器。在浊音中,每个基音周期并不只是一个主脉冲,声门关闭不完全会产生很多的次要脉冲,引入这个滤波器的目的就是要对合成语音作时域扩展处理,将集中的脉冲激励能量散布开,增加语音的平滑性。ME模型中采用的滤波器的系数可以通过对三角脉冲做DFT变换,然后去除掉低频部分,进行归一化处理后再进行IDFT变换即可得到。
四、编码器算法仿真及结果分析
对上述的编码算法用Matlab在PC机上进行模拟,原始语音与合成语音的波形(如图1所示)。
对同一段语音的2.4kbps的LPC、4.8kbps的CELP、2.4kbps的MELP合成语音进行MOS得分测试(如图2所示),可以发现,在2.4kbps的速率下MELP可以得到在主观听音方面与4.8kbps的CELP相近的合成语音。
五、MELP在商业规范化服务中的应用
语音处理技术在人工智能研究领域一直占有重要的地位,而商业管理、服务的智能化、信息化是未来的一种趋势,所以MELP技术可以广泛的应用于商业服务领域。例如,自动客户服务的提出大大降低了各商业企业的客户服务人工费用,但是由于语音技术的落后,这种自动客户服务只限于语音提示级别,而不能与人交流。MELP技术可以降低单位语音的存储空间,大大节省了存储设备成本,使智能化、规范化的客户服务成为现实。
另外,MELP技术还可以应用于商场语音答疑系统、语音提示系统、语音密码系统等方面,可以在节省人工成本的基础上,提高客户服务质量。
从20世纪90年代开始,人类开始进入信息社会,也称信息化社会。信息作为继物质和能源之后的第三资源,在商业发展中起着主导作用。语音是人们交流信息的主要手段之一,用数字化的方法进行语音的传送、存储、识别、合成等构成了目前商业应用中最重要、最基本的组成部分之一。也正因为信息化社会的高速发展,媒介资源、存储资源也就显得更加宝贵。因此,压缩语音信号的传输带宽一直是人们追求的目标。在贝尔实验室的Homer Dudley于1939年发明了第一个声码器之后,语音压缩编码技术进入了一个新的时代。CCITT已经制订了几个国际化的语音编码标准,这些标准规范并推动了语音编码的研究,但是也可以看出这些标准的编码速率都比较高;而美国联邦标准LPC-10以及LPC-10e尽管能够在2.4kbps合成出清晰可懂的语音,但合成语音在自然度等方面并不令人满意。MELP是Alan V. McCree等人提出的,是在原来LPC基础上,吸收了多带激励以及原型波形内插等编码方法的思想发展起来的,使得编码方法更好的利用语音的发音机制,可以在低速率下得到较高质量的语音。
二、LPC方法的缺点及MELP方法概述
混合激励模型主要是在二元激励的基础上,针对二元激励模型存在的一些问题做了相应的改进。由于二元激励模型中浊音采用周期脉冲作为激励,清音采用白噪声作为激励,所以它具有很多的缺点:
1.语音分类太粗糙,激励信号只有两种选择,要么是随机噪声,要么是周期性的脉冲。但人的发声器官并没有那么简单,实际情况是在大多数语音帧中既含有浊音成分又含有清音成分,把既含有浊音又含有清音的语音帧按周期性激励源合成,非周期能量没有得到恢复,主观听觉上会感觉合成语音有明显的“嗡嗡”声;反过来,如果将含有浊音的激励源按噪声激励源合成,听起来就会感觉语音嘶哑。
2.在一帧内采用固定的基音周期不能精确的描述语音激励。由于语音信号的时变特性,即使是在一帧语音内,基音周期也并非一成不变的。把一帧合成语音的周期作为固定值处理进行语音合成的时候,会失去原始语音的周期性,引入过强的周期性,造成蜂鸣声。
3.在浊音的时候采用简单的周期信号不能刻画激励信号的形状,会失去很多说话人的特征。这是因为在每个周期内不仅只有一个主脉冲,还有很多辅助的脉冲,这些脉冲对体现说话人的特征和提高自然度是很重要的,而二元激励的方法则忽略了这些信息。
由于上面的原因,经典二元激励LPC声码器的合成语音可以使人明白谈话的内容,但是它的自然度很差,带有很重的金属声和卡嚓声,难以辨别说话人,主观听觉质量不好。
鉴于上面LPC模型中存在的一些缺陷,在后来的ME模型中有针对性的进行了改进。对于LPC中对语音的分类和激励过于简单的问题,ME模型采用了周期脉冲和白噪声的混合激励;对于帧内基音周期的时变特性,把语音分为浊音、清音和抖动浊音,对于抖动浊音采用了非周期的脉冲激励;针对二元激励LPC忽略了激励信号的形状信息,在ME模型中编码了激励信号的傅立叶谱的幅度。而且,ME模型还加入了脉冲散布滤波器和自适应谱增强滤波器来提高语音质量,下面我们就来看一下ME模型中的几个新特征。
三、MELP方法中的新特征
1.混合脉冲和噪声激励。MELP算法采用多带混合激励模型。语音被分为5个固定的频带0Hz~500Hz,500Hz~1000Hz,1000Hz~2000Hz,2000Hz~3000Hz, 3000Hz~4000Hz,在每个子带上分别对语音进行浊音强度(Voice strength)的计算,依据其浊音强度和基音搜索的结果来判断该子带语音是清音、浊音还是抖动浊音。合成时,根据各子带的属性和浊音强度对通过该子带滤波器的噪声、周期脉冲和非周期脉冲进行加权求和,作为激励。采用混合激励,可以减少合成语音中的蜂鸣声。
2.非周期脉冲。混合脉冲和噪声激励可以消除LPC声码器的嗡嗡声,但是总是无法消除一些孤立的,短暂的音调,会产生一些类似电流声的单音噪声。这是由于在清/浊的过渡段声门脉冲不是很稳定,从而导致激励没有严格的周期性。在过去的LPC方法中,这些都是当作浊音来处理,从而会引进一些很奇怪又很刺耳的音调。在ME模型中,针对这个问题,对基音周期进行抖动,抖动的幅度服从以基音幅度的±25%为上下限的均匀分布。这样就打破了激励信号的严格的周期性,很好的描述了在声门激励不稳定的时候产生的脉冲的特性。
由于这种抖动如果加在强浊音帧的激励中的话,就会破坏语音的周期性,也就是破坏了该帧激励的惟一的参数——基音周期,会使得语音质量急剧变坏,这也是引入抖动浊音这一分类的根本原因。所以要准确的判断,是否可以加抖动,这可以通过计算语音帧的自相关和多峰度来决定。
多峰度的大小描述了峰值是否明显。
3.余量信号的傅立叶谱幅度。我们知道各种对语音信号的激励的编码方法,包括多脉冲、码激励、二元激励等都是为了更好的描述余量信号的信息。在浊音中,余量信号所包含的信息量要远远少于原始语音信号,首先在幅度范围上就小于原始语音信号;而且包含较少的几个脉冲,形状上也要比原始语音信号要简单的多。但是,余量信号也是有一定形状的。如果只是采用周期性的脉冲作为激励,虽然可以描述余量信号的周期性信息,却失去了余量信号的形状信息,这就导致合成语音质量的下降。
从时域来描述余量信号的形状信息是比较困难的,因为对于按周期合成的语音来说,周期内的余量信号的长度不定,这就会给量化带来很大的麻烦,所以可以从频域来描述余量信号的形状信息。在ME模型中,采用对各基音周期谐波处的傅立叶级数幅度进行量化的方法来描述余量信号的形状信息。通过这种方法可以改善LPC合成语音中语音嘶哑等弱点,而且提高了抗噪声的性能。
4.自适应谱增强。为了使合成语音的频谱能够在共振峰所处的频带与原始的语音信号匹配得更好, 我们引入自适应谱增强。这是因为从时域看,合成语音两个主激励之间会衰减的比自然语音要大的多;而从频域看,LPC滤波器的共振峰要比自然语音的共振峰要缓和。为了解决这个问题, 我们引入了自适应谱增强滤波器。它是一个零极点滤波器, 由两部分组成。第一部分是一个全极点的滤波器, 用来增加每个共振峰的带宽,由LPC滤波器在每个 前面乘以一个因子A=0.8得到;第二部分是为了减小前面全极点滤波器的低通效应而引入,为一个全零点的滤波器, 由LPC滤波器在每个 前面乘以一个因子A=0.5后求倒数得到,可以使处于波谷的信号值有所提升。传输函数可以写为:
5.散布脉冲。为了改善在非共振峰频率处合成语音与原始语音的匹配,ME模型引入了散布脉冲滤波器。在浊音中,每个基音周期并不只是一个主脉冲,声门关闭不完全会产生很多的次要脉冲,引入这个滤波器的目的就是要对合成语音作时域扩展处理,将集中的脉冲激励能量散布开,增加语音的平滑性。ME模型中采用的滤波器的系数可以通过对三角脉冲做DFT变换,然后去除掉低频部分,进行归一化处理后再进行IDFT变换即可得到。
四、编码器算法仿真及结果分析
对上述的编码算法用Matlab在PC机上进行模拟,原始语音与合成语音的波形(如图1所示)。
对同一段语音的2.4kbps的LPC、4.8kbps的CELP、2.4kbps的MELP合成语音进行MOS得分测试(如图2所示),可以发现,在2.4kbps的速率下MELP可以得到在主观听音方面与4.8kbps的CELP相近的合成语音。
五、MELP在商业规范化服务中的应用
语音处理技术在人工智能研究领域一直占有重要的地位,而商业管理、服务的智能化、信息化是未来的一种趋势,所以MELP技术可以广泛的应用于商业服务领域。例如,自动客户服务的提出大大降低了各商业企业的客户服务人工费用,但是由于语音技术的落后,这种自动客户服务只限于语音提示级别,而不能与人交流。MELP技术可以降低单位语音的存储空间,大大节省了存储设备成本,使智能化、规范化的客户服务成为现实。
另外,MELP技术还可以应用于商场语音答疑系统、语音提示系统、语音密码系统等方面,可以在节省人工成本的基础上,提高客户服务质量。