混合激励线性预测(MELP)编码方法研究及在商业规范化服务中的应用

来源 :商场现代化 | 被引量 : 0次 | 上传用户:qinqincy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  一、引言
  
  从20世纪90年代开始,人类开始进入信息社会,也称信息化社会。信息作为继物质和能源之后的第三资源,在商业发展中起着主导作用。语音是人们交流信息的主要手段之一,用数字化的方法进行语音的传送、存储、识别、合成等构成了目前商业应用中最重要、最基本的组成部分之一。也正因为信息化社会的高速发展,媒介资源、存储资源也就显得更加宝贵。因此,压缩语音信号的传输带宽一直是人们追求的目标。在贝尔实验室的Homer Dudley于1939年发明了第一个声码器之后,语音压缩编码技术进入了一个新的时代。CCITT已经制订了几个国际化的语音编码标准,这些标准规范并推动了语音编码的研究,但是也可以看出这些标准的编码速率都比较高;而美国联邦标准LPC-10以及LPC-10e尽管能够在2.4kbps合成出清晰可懂的语音,但合成语音在自然度等方面并不令人满意。MELP是Alan V. McCree等人提出的,是在原来LPC基础上,吸收了多带激励以及原型波形内插等编码方法的思想发展起来的,使得编码方法更好的利用语音的发音机制,可以在低速率下得到较高质量的语音。
  
  二、LPC方法的缺点及MELP方法概述
  
  混合激励模型主要是在二元激励的基础上,针对二元激励模型存在的一些问题做了相应的改进。由于二元激励模型中浊音采用周期脉冲作为激励,清音采用白噪声作为激励,所以它具有很多的缺点:
  1.语音分类太粗糙,激励信号只有两种选择,要么是随机噪声,要么是周期性的脉冲。但人的发声器官并没有那么简单,实际情况是在大多数语音帧中既含有浊音成分又含有清音成分,把既含有浊音又含有清音的语音帧按周期性激励源合成,非周期能量没有得到恢复,主观听觉上会感觉合成语音有明显的“嗡嗡”声;反过来,如果将含有浊音的激励源按噪声激励源合成,听起来就会感觉语音嘶哑。
  2.在一帧内采用固定的基音周期不能精确的描述语音激励。由于语音信号的时变特性,即使是在一帧语音内,基音周期也并非一成不变的。把一帧合成语音的周期作为固定值处理进行语音合成的时候,会失去原始语音的周期性,引入过强的周期性,造成蜂鸣声。
  3.在浊音的时候采用简单的周期信号不能刻画激励信号的形状,会失去很多说话人的特征。这是因为在每个周期内不仅只有一个主脉冲,还有很多辅助的脉冲,这些脉冲对体现说话人的特征和提高自然度是很重要的,而二元激励的方法则忽略了这些信息。
  由于上面的原因,经典二元激励LPC声码器的合成语音可以使人明白谈话的内容,但是它的自然度很差,带有很重的金属声和卡嚓声,难以辨别说话人,主观听觉质量不好。
  鉴于上面LPC模型中存在的一些缺陷,在后来的ME模型中有针对性的进行了改进。对于LPC中对语音的分类和激励过于简单的问题,ME模型采用了周期脉冲和白噪声的混合激励;对于帧内基音周期的时变特性,把语音分为浊音、清音和抖动浊音,对于抖动浊音采用了非周期的脉冲激励;针对二元激励LPC忽略了激励信号的形状信息,在ME模型中编码了激励信号的傅立叶谱的幅度。而且,ME模型还加入了脉冲散布滤波器和自适应谱增强滤波器来提高语音质量,下面我们就来看一下ME模型中的几个新特征。
  
  三、MELP方法中的新特征
  
  1.混合脉冲和噪声激励。MELP算法采用多带混合激励模型。语音被分为5个固定的频带0Hz~500Hz,500Hz~1000Hz,1000Hz~2000Hz,2000Hz~3000Hz, 3000Hz~4000Hz,在每个子带上分别对语音进行浊音强度(Voice strength)的计算,依据其浊音强度和基音搜索的结果来判断该子带语音是清音、浊音还是抖动浊音。合成时,根据各子带的属性和浊音强度对通过该子带滤波器的噪声、周期脉冲和非周期脉冲进行加权求和,作为激励。采用混合激励,可以减少合成语音中的蜂鸣声。
  2.非周期脉冲。混合脉冲和噪声激励可以消除LPC声码器的嗡嗡声,但是总是无法消除一些孤立的,短暂的音调,会产生一些类似电流声的单音噪声。这是由于在清/浊的过渡段声门脉冲不是很稳定,从而导致激励没有严格的周期性。在过去的LPC方法中,这些都是当作浊音来处理,从而会引进一些很奇怪又很刺耳的音调。在ME模型中,针对这个问题,对基音周期进行抖动,抖动的幅度服从以基音幅度的±25%为上下限的均匀分布。这样就打破了激励信号的严格的周期性,很好的描述了在声门激励不稳定的时候产生的脉冲的特性。
  由于这种抖动如果加在强浊音帧的激励中的话,就会破坏语音的周期性,也就是破坏了该帧激励的惟一的参数——基音周期,会使得语音质量急剧变坏,这也是引入抖动浊音这一分类的根本原因。所以要准确的判断,是否可以加抖动,这可以通过计算语音帧的自相关和多峰度来决定。
  多峰度的大小描述了峰值是否明显。
  3.余量信号的傅立叶谱幅度。我们知道各种对语音信号的激励的编码方法,包括多脉冲、码激励、二元激励等都是为了更好的描述余量信号的信息。在浊音中,余量信号所包含的信息量要远远少于原始语音信号,首先在幅度范围上就小于原始语音信号;而且包含较少的几个脉冲,形状上也要比原始语音信号要简单的多。但是,余量信号也是有一定形状的。如果只是采用周期性的脉冲作为激励,虽然可以描述余量信号的周期性信息,却失去了余量信号的形状信息,这就导致合成语音质量的下降。
  从时域来描述余量信号的形状信息是比较困难的,因为对于按周期合成的语音来说,周期内的余量信号的长度不定,这就会给量化带来很大的麻烦,所以可以从频域来描述余量信号的形状信息。在ME模型中,采用对各基音周期谐波处的傅立叶级数幅度进行量化的方法来描述余量信号的形状信息。通过这种方法可以改善LPC合成语音中语音嘶哑等弱点,而且提高了抗噪声的性能。
  4.自适应谱增强。为了使合成语音的频谱能够在共振峰所处的频带与原始的语音信号匹配得更好, 我们引入自适应谱增强。这是因为从时域看,合成语音两个主激励之间会衰减的比自然语音要大的多;而从频域看,LPC滤波器的共振峰要比自然语音的共振峰要缓和。为了解决这个问题, 我们引入了自适应谱增强滤波器。它是一个零极点滤波器, 由两部分组成。第一部分是一个全极点的滤波器, 用来增加每个共振峰的带宽,由LPC滤波器在每个 前面乘以一个因子A=0.8得到;第二部分是为了减小前面全极点滤波器的低通效应而引入,为一个全零点的滤波器, 由LPC滤波器在每个 前面乘以一个因子A=0.5后求倒数得到,可以使处于波谷的信号值有所提升。传输函数可以写为:
  5.散布脉冲。为了改善在非共振峰频率处合成语音与原始语音的匹配,ME模型引入了散布脉冲滤波器。在浊音中,每个基音周期并不只是一个主脉冲,声门关闭不完全会产生很多的次要脉冲,引入这个滤波器的目的就是要对合成语音作时域扩展处理,将集中的脉冲激励能量散布开,增加语音的平滑性。ME模型中采用的滤波器的系数可以通过对三角脉冲做DFT变换,然后去除掉低频部分,进行归一化处理后再进行IDFT变换即可得到。
  
  四、编码器算法仿真及结果分析
  
  对上述的编码算法用Matlab在PC机上进行模拟,原始语音与合成语音的波形(如图1所示)。
  对同一段语音的2.4kbps的LPC、4.8kbps的CELP、2.4kbps的MELP合成语音进行MOS得分测试(如图2所示),可以发现,在2.4kbps的速率下MELP可以得到在主观听音方面与4.8kbps的CELP相近的合成语音。
  
  五、MELP在商业规范化服务中的应用
  
  语音处理技术在人工智能研究领域一直占有重要的地位,而商业管理、服务的智能化、信息化是未来的一种趋势,所以MELP技术可以广泛的应用于商业服务领域。例如,自动客户服务的提出大大降低了各商业企业的客户服务人工费用,但是由于语音技术的落后,这种自动客户服务只限于语音提示级别,而不能与人交流。MELP技术可以降低单位语音的存储空间,大大节省了存储设备成本,使智能化、规范化的客户服务成为现实。
  另外,MELP技术还可以应用于商场语音答疑系统、语音提示系统、语音密码系统等方面,可以在节省人工成本的基础上,提高客户服务质量。
其他文献
[摘要] 本文基于河南上市公司的数据,通过实证分析,对EVA率及其动因指标与公司股权结构的相关性进行了研究,研究发现,EVA与资产周转率和主营业务利润率显著相关,但与股权结构相关性未通过显著性检验。  [关键词] EVA股权结构回归资产周转率主营业务利润率  EVA(经济增加值)是由美国思腾·斯特(Stern Stewart)管理咨询公司在上世纪80年代提出的衡量企业价值创造能力的指标。其定义式为
期刊
[摘要] 在我国,股份公司的关联交易非常普遍,也出现了许多不规范的股份公司关联交易行为,本文探讨了上市公司不规范关联交易的原因及危害,进一步认识《关于进一步规范股票首次发行上市有关工作的通知》对规范上市公司的关联交易,保护投资者利益,保持我国证券市场能够持续稳定发展的重要意义。  [关键词] 关联交易投资者利益《通知》    一、关联交易简介    近年来,随着我国证券市场法律、法规的逐步完善以及
期刊
[摘要] 国际经验表明,当一个国家人均GDP进入1000美元到3000美元的时期,既是黄金发展期,也是矛盾凸显期,处理得好,能够顺利发展,经济能够很快上一个新台阶,处理不好,经济将停滞不前或倒退。我国人均国民生产总值刚刚跨过1000美元,诸如收入悬殊等问题相继而至。建立和完善社会保障制度是解决这些问题的有效途径,也是政府的必然选择。  [关键词] 社会保障宏观经济困境  社会保障制度自19世纪80
期刊
[摘要] 一些企业为追逐利润最大化,严重损害广大消费者及社会的利益,违背法律与道德原则行事,给广大消费者和社会造成了极大危害,引发了关于企业责任的若干思考。本文从食品安全谈起,论述了由食品安全所引发的企业社会责任的淡化问题,对其产生的深层次原因进行分析,并提出了若干对策和建议。  [关键词] 企业责任食品安全  苏丹红、禽流感、疯牛病、转基因等一系列关乎公众食品安全的事件,已不仅仅是商业世界里的利
期刊
[摘要] MAX—MIN蚁群算法是一种改进蚁群算法,文本构造了求解VRPTW的最大最小蚁群算法,将仿真结果与其他经典算法进行比较,结果证明该算法性能优良。  [关键词] MAX-MIN蚁群算法时间窗车辆路径问题优化    一、VRPTW模型的建立     带有时间窗口的车辆路径问题是典型的多目标组合优化NP-hard问题,因此需要通过合理的构造数学模型来安排车辆配送路线,达到提高配送效率同时又能够
期刊
[摘要] MATLAB是国际上最优秀的科技应用软件之一,它集数值分析、矩阵运算、信号处理和图形显示于一体,构成了一个方便的、界面友好的用户环境,其强大的科学计算与可视化功能,简单易用的开放式可扩展环境,使得MATLAB成为控制领域进行计算机辅助分析与设计的一种非常好的工具和首选平台。本文对模糊控制器的工作原理做了简要介绍,结合典型的二阶系统。设计了一个模糊控制器,用MATLAB对所设计的控制器进行
期刊
[摘要] 结合电机速度闭环控制,本文介绍了采用PLC、变频器和编码器组成的交流变频闭环调速系统的工作原理,重点阐述了用PLC实现闭环变频调速控制的关键技术,并指出了设计中应注意的主要问题。  [关键词] 交流调速PLC变频器  随着工业控制要求的不断发展,对电机速度控制的要求也越来越高,一般都需进行闭环控制。交流电机调速的方法很多,调压、串级、滑差、变频等方式都不同程度地应用于各种各样的工控领域。
期刊
ASP是一种Web应用程序开发技术。它与ADO的充分结合,提供了强大的数据库访问功能,已成为网上开发数据库的重要工具。    一、ASP数据库原理    ASP技术是通过后缀名为.asp的文件来实现的。当在浏览器Browser 中访问以后缀名为. asp的页面时,实际上就是向Web 服务器发送一个HTTP请求,Web服务器接收到请求后,调用相应的ASP引擎asp.dll来处理。若ASP脚本中含有访
期刊
[摘要] 商业营销决策支持系统的使用能够提高决策者的决策质量和效率。本文论述了基于WEB和数据仓库的商业营销决策支持系统的体系结构,并讨论了相关技术的实现。  [关键词] Web数据仓库数据挖掘决策支持系统  随着我国加入WTO,商业企业间的竞争将日趋激烈,能否依据市场需求,快速地决策出有效的营销策略,对商业企业的发展具有十分重要的意义。商业营销决策支持系统正是在这种背景下开发研制的,决策支持系统
期刊
[摘要] 文章紧抓数字经济时代脉搏,从ERP的角度来探讨我国企业如何建立数字化管理平台。文章首先追溯了ERP的起源、发展,并且详尽地对ERP的特性和功能作一介绍,接着分析了我国企业中信息化建设的现状,揭示出存在的问题,最后针对我国企业的情况提出实施ERP的方法论,并给出检验其实施成功与否的标准。  [关键词] ERP管理信息系统信息化平台实施方法论    一、引言    在全球竞争激烈的大市场中,
期刊