低速率波形内插语音编码关键技术的研究

来源 :北京工业大学 | 被引量 : 6次 | 上传用户:qiangchengshimeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现代通信系统中,语音是最基本、最重要的通信方式,通常是经过压缩以比特流的形式传输的,由于考虑到传输成本、效率、占用的物理信道、存储空间等因素,人们希望在保证好的语音质量的前提下,尽可能地压低语音编码的传输速率。这个语音信息压缩过程被称为语音编码。低速率语音编码已被广泛地应用在无线移动通信,VoIP(Voice over Internet Protocol)、语音信箱、保密通信和卫星通信中。随着下一代无线网络和Internet网络的发展,语音编码更多的应用和服务将会被提供。这使得近些年来人们对高质量的低速率语音编码有着持续增长的兴趣。因此,研究如何在低速率下获得具有通信质量的重建语音是语音编码中一个十分重要的课题。在高质量低速率的语音编码中,波形内插(Waveform Interpolation,WI)语音编码技术是极具潜力的编码方案之一。近些年许多学者对其进行了广泛的研究,本文在此基础上针对低速率WI语音编码模型和参数量化等关键技术进行了深入的研究,提出了一系列改进算法,并最终提出一种2kb/s低复杂度改进型波形内插(Low-complex Improved Waveform Interpolation,LIWI)语音编码方法。本文的主要贡献体现为如下几方面:一、为了减少WI模型的计算复杂度,提出了基于快速傅立叶变换、三次B样条插值和周期延拓技术的特征波形(Characteristic Waveform,CW)表示和对齐的快速算法,与原方法相比,计算量下降到原方法的1/5,同时也使得CW在插值和量化时更合理;二、为了严格保证SEW与REW的能量和为1,提出了一种特征波形的二次功率归一化算法,仅需要SEW能量就可以算出二者的能量比,并可应用到后续的REW的分类量化和CW合成中;三、为了对慢渐变波形(Slowly Evolving Waveform,SEW)幅度、快渐变波形(Rapidly Evolving Waveform,REW)幅度和特征波形功率进行有效量化,本文首先采用临界频带理论、分析合成技术、感觉加权技术以及预测式矢量量化技术,提出了一种基于基音周期分类的SEW分析合成预测式多码书量化方法;其次,本文根据基音和量化后SEW的功率信息对REW幅度进行分类,提出了一种基于离散余弦变换的REW矩阵多码书量化方法。这种SEW和REW幅度的多码书量化方法在牺牲了一些储存空间的条件下,有效解决了低比特率WI编码中比特分配不足的问题;再者,本文以语音能量的平稳过渡性为依据,提出了CW功率的分类量化方法,有效地改善了过渡段和起始段的功率量化精度。实验结果表明,这些量化方法明显地提高了重建语音的感性质量;四、根据SEW和REW的能量比对合成语音进行分类,提出了一种CW的动态加权合成方法,即SEW成分正比于能量比,REW成分反比于能量比。该方法在很大程度上解决了WI模型不太适合描述清音的问题,提高了合成语音的自然度;五、提出了基于Sigmoid函数的改进型基音内插方法,修正了原公式在某些特殊基音插值中出现的“病态”的插值结果;六、提出一种基于支持向量机的含噪语音的清/浊/静音的分类方法,这种方法可以在各种信噪比等级下将语音信号有效地分为清音、浊音和静音三类信号,并在此基础上开发出具有鲁棒性的语音激活检测算法;七、开发出一套低复杂度高质量的2kb/s的WI语音编码算法,并对其语音质量、算法时间复杂度和空间复杂度等参数做了评测。其中,诊断押韵测试(Diagnostic Rhyme Test,DRT)表明,重建语音的可懂度为优;平均意见分(Mean Opinion Score,MOS)测试及主观A/B测试表明2kb/s LIWI编码器的语音质量接近美国联邦标准FS1016的4.8kb/s码激励线性预测(Code Excited Linear Prediction, CELP)编码器,好于2.4kb/s混合激励线性预测(Mixed Excitation Linear Prediction, MELP)声码器;编解码算法的计算复杂度约为91.254MOPS,所需的存储容量大约为78K个浮点存储单元。
其他文献
[摘 要:在当前的数学教学,特别是小学数学教授里,合理的纠正学生错误是重要的环节。教师要正确面对学生出现的问题,帮助学生归纳分析,让他们不再出现类似错误。笔者将在本文对小学数学开发利用错误资源的问题进行分析,并提出相应的解决措施,希望具备一定的参考意义。  关键词:小学;数学教学;错误资源;开发利用]  相关文件曾提出:“在进行数学教学时,错误不仅反映学生学习过程的问题,还反映教师教授的问题。”在
随着计算机网络、信息技术的飞速发展,如何有效地解决数字签名、密文解密的授权传递已经成为人们倍受关注的一个问题。而代理密码学正是解决这一类问题的一种最为有效、最有潜
本文从黑白影像艺术的现状和发展入手,通过对黑白影像的审美特征演变过程以及视觉表现进行了具体的分析,重点阐述数字化黑白摄影进阶,论证数字化黑白影像是视觉影像的延伸和
在成品油的生产、储存、顺序输送和处理过程中,为避免油品之间发生掺混而造成贬值损失,需要对混油进行必要的处理。常用的混油处理方法有五种,分别是回掺法、蒸馏法、金属氧化物
<正> 近年来,清华大学社会科学系部分教师在校党委的组织和指导下,先后在党委举办的本科生和研究生党校、党课学习班和由各系开设的选修课中进行了马克思主义经典著作学习辅
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
摘 要:自学能力是一种体现学生的学习自主性,发挥主观能动性的重要能力。在初中物理教学中,教师要在课堂授课之外,有意锻炼学生的自学能力,让他们在学习上能更多地从自己的主观出发,自发、自制地去学习。  关键词:初中物理;自学能力;自主阅读;师生关系  自学是一种让人受益终生的能力,因此,教师在教学中要适当放手,给学生更多自学的机会,让学生意识到自学能力的重要性,认识到学习是一项持续一生的事业。当前,很
回首2005年12月14日,有太多的话题值得好好回味,有太多的故事值得细细品味,我们将用镜头、用文字留住这一值得铭记的日子。
在当前社会经济快速发展的背景下,我国交通运输业也得到了大力发展,铁路工程、公路工程等工程数量越来越多。在铁路建设中,一项重要的工程项目就是隧道施工,这项工程具有较高
为了提高东临老线(东营-临邑)输油管道的经济效益,根据稀释输送机理,结合胜利原油、阿曼原油的原油物性及东临老线实际工艺流程,在实验测定的基础上,采用了阿曼油与胜利油不