论文部分内容阅读
摘 要:随着5G时代的来临,互联网技术在我们的生活中起着不可或缺的作用,而基于移动互联网的语音通话也成了我们生活中的日常。在面向VOIP的语音编解码中,由于压缩感知能以更少的采样点恢复完整的原始信号,有利于语音通信中的丢包恢复,因此文章将压缩感知理论用于语音编解码方法,致力于研究一种低复杂度的压缩感知语音编解码方法。实验证明,文章的方法比经典的压缩感知算法在语音重构的速度上具有一定的优势。
关键词:VOIP;低复杂度;压缩感知
0 引言
众所周知,传统的信号采样方法遵循著名的奈奎斯特采样定理,即采样速率必须至少是信号中存在的最大频率的两倍。而由陶哲轩等[1]提出的压缩感知理论可以通过比传统方法更少的样本点或测量值尽可能地恢复出原始信号。如今,越来越多的领域[2]应用了压缩感知理论,在语音信号处理方面,由于语音信号具有良好的稀疏性,因此将压缩感知应用于语音编解码中具有一定的可行性。
相比传统的压缩编码方案,压缩感知是边采样边压缩的,少了压缩大量冗余数据的过程,因此将压缩感知理论应用于语音信号的编解码中能提高压缩效率,为研究更低复杂度的语音编解码方法提供了一定的理论基础。
1 压缩感知基本原理
在压缩感知理论中,一个典型的问题就是如何从一个线性方程中估计长度为 N 的未知向量 x,
其中,A是一个M×N的测量矩阵,且M小于N。我们用N表示信号的维数。一般来说,如果 x 没有额外的结构,就不可能从比信号维数更少的测量值中恢复 x。但是,如果已知信号在某些基上是稀疏的,其中只有 K 个系数是非零的或重要的,则是有可能从更少的测量值中恢复未知信号的。压缩感知的过程主要分为两步:(1)设计一个测量矩阵对原始信号进行观测,得到一个测量值;(2)由测量值通过重构算法重构出原始信号。
2 基于压缩感知的语音编码方法
2.1 稀疏表示
在压缩感知理论中,一个重要的前提是信号具有一定的稀疏性,而信号的稀疏性是指信号中的大部分元素为0或者趋近于0,而少部分元素非零。然而我们知道在真实世界里不一定所有信号都是稀疏的,因此信号在一定的变换域内可以进行稀疏表示,也是满足压缩感知理论要求的。而这个变换的前提就是需要稀疏基,可以用数学语言描述为:
其中,ψ为N×N的稀疏变换矩阵,x为原始信号,s为经过稀疏变换后的稀疏系数。在实验中,ψ为小波变换基。在稀疏表示方面,小波变换是一种经典的稀疏表示方法。小波变换每次将信号分为低频和高频部分,而低频系数往往表示信号的主要信息,高频系数决定信号的细节信息,从而说明小波变换下的低频系数对语音信号重构有着极其重要的作用。
2.2 语音信号的压缩感知重构
目前,压缩感知的重构方法主要分为凸优化方法和贪婪方法。凸优化方法以基追踪(Basis Pursuit,BP)[3]方法为代表,用凸优化方法重构的信号恢复效果好,但是计算复杂度高,导致重构时间慢;贪婪算法以正交匹配追踪(Orthogonal Matching Pursuit,OMP)算法为代表,贪婪算法恢复时间快,但是重构效果欠佳。综合两者的优缺点以及语音编解码对编码质量和延时的要求,我们选择了一种新的压缩感知方法,称为Incrowd方法。该方法通过一次取多个非零元,代替一次取单个非零元,可以大大减少重构时间,提高恢复效率。算法步骤如下:
步骤1.设置初始的x0为n×1的零向量,残差r=y-Ax0;
步骤2.设活动集I 为空集;
步骤3.存在j属于I 的补集Ic,使uj=|<r,Aj>| ;
步骤4.如果在I 的补集Ic上没有uj>λ,则程序终止;
步骤5.否则,将uj 中最大的L个加到集合I里,但是不要将uj<λ的部分加进来;
步骤6.在由I中的所有分量张成的子空间上求解,使用x0的當前值来热启动求解器;
步骤7.从I中拿掉在步骤6中求出的精确解的零值元素;
步骤8.将 x0 的所有部分设置为0,除了 I 中的部分;将这些设置为步骤6的精确解找到的值;
步骤9.更新残差r=y-Ax;注意:当存在 j 属于 I c,xj=0,可以在步骤6的子问题中找到 Ax;
步骤10.返回第3步。
2.3 编解码方法
本文设计的语音编解码方法先用高斯随机矩阵对语音原始信号进行压缩感知观测,利用得到的观测值和由测量矩阵与稀疏字典构成的感知矩阵,用Incrowd算法重构出语音信号稀疏系数,再将重构出的稀疏系数通过稀疏逆变换还原出语音信号,从而实现了低复杂度的语音编解码过程。编解码过程如图1所示。
3 实验结果
本次实验采用的语音信号来自清华大学中文语料库,其中采样频率为16 000 Hz,一次取1 024个样本点进行重构,将本文所用算法与压缩感知中具有代表性的基追踪BP算法在语音恢复时间上进行对比,选用的稀疏基为小波矩阵,选用大小为 512×1 024的高斯随机观测矩阵,设置自变量为50到500的测量值。如图2所示,在不同的测量值下,本文所使用的算法在信号重构时间上均优于经典的BP算法。由此可见,本文所用算法在研究低延时的语音编解码方法上具有一定的可行性。
4 结语
综上所述,本文使用的压缩感知语音快速编解码方法在运行时间上具有一定的优势,对于追求低延迟的移动网络电话的应用具有一定的意义。
[参考文献]
[1]DONOHO D L. Compressed sensing[J].IEEE Transactions on Information Theory,2006(4):1289-1306.
[2]石光明,刘丹华,高大化,等.压缩感知理论及其研究进展[J].电子学报,2009(5):1070-1081.
[3]CHEN S S,DONOHO D L,SAUNDERS M A. Atomic decomposition by basis pursuit[J].Siam Review,2001(1):129-159.
(编辑 王雪芬)
关键词:VOIP;低复杂度;压缩感知
0 引言
众所周知,传统的信号采样方法遵循著名的奈奎斯特采样定理,即采样速率必须至少是信号中存在的最大频率的两倍。而由陶哲轩等[1]提出的压缩感知理论可以通过比传统方法更少的样本点或测量值尽可能地恢复出原始信号。如今,越来越多的领域[2]应用了压缩感知理论,在语音信号处理方面,由于语音信号具有良好的稀疏性,因此将压缩感知应用于语音编解码中具有一定的可行性。
相比传统的压缩编码方案,压缩感知是边采样边压缩的,少了压缩大量冗余数据的过程,因此将压缩感知理论应用于语音信号的编解码中能提高压缩效率,为研究更低复杂度的语音编解码方法提供了一定的理论基础。
1 压缩感知基本原理
在压缩感知理论中,一个典型的问题就是如何从一个线性方程中估计长度为 N 的未知向量 x,
其中,A是一个M×N的测量矩阵,且M小于N。我们用N表示信号的维数。一般来说,如果 x 没有额外的结构,就不可能从比信号维数更少的测量值中恢复 x。但是,如果已知信号在某些基上是稀疏的,其中只有 K 个系数是非零的或重要的,则是有可能从更少的测量值中恢复未知信号的。压缩感知的过程主要分为两步:(1)设计一个测量矩阵对原始信号进行观测,得到一个测量值;(2)由测量值通过重构算法重构出原始信号。
2 基于压缩感知的语音编码方法
2.1 稀疏表示
在压缩感知理论中,一个重要的前提是信号具有一定的稀疏性,而信号的稀疏性是指信号中的大部分元素为0或者趋近于0,而少部分元素非零。然而我们知道在真实世界里不一定所有信号都是稀疏的,因此信号在一定的变换域内可以进行稀疏表示,也是满足压缩感知理论要求的。而这个变换的前提就是需要稀疏基,可以用数学语言描述为:
其中,ψ为N×N的稀疏变换矩阵,x为原始信号,s为经过稀疏变换后的稀疏系数。在实验中,ψ为小波变换基。在稀疏表示方面,小波变换是一种经典的稀疏表示方法。小波变换每次将信号分为低频和高频部分,而低频系数往往表示信号的主要信息,高频系数决定信号的细节信息,从而说明小波变换下的低频系数对语音信号重构有着极其重要的作用。
2.2 语音信号的压缩感知重构
目前,压缩感知的重构方法主要分为凸优化方法和贪婪方法。凸优化方法以基追踪(Basis Pursuit,BP)[3]方法为代表,用凸优化方法重构的信号恢复效果好,但是计算复杂度高,导致重构时间慢;贪婪算法以正交匹配追踪(Orthogonal Matching Pursuit,OMP)算法为代表,贪婪算法恢复时间快,但是重构效果欠佳。综合两者的优缺点以及语音编解码对编码质量和延时的要求,我们选择了一种新的压缩感知方法,称为Incrowd方法。该方法通过一次取多个非零元,代替一次取单个非零元,可以大大减少重构时间,提高恢复效率。算法步骤如下:
步骤1.设置初始的x0为n×1的零向量,残差r=y-Ax0;
步骤2.设活动集I 为空集;
步骤3.存在j属于I 的补集Ic,使uj=|<r,Aj>| ;
步骤4.如果在I 的补集Ic上没有uj>λ,则程序终止;
步骤5.否则,将uj 中最大的L个加到集合I里,但是不要将uj<λ的部分加进来;
步骤6.在由I中的所有分量张成的子空间上求解,使用x0的當前值来热启动求解器;
步骤7.从I中拿掉在步骤6中求出的精确解的零值元素;
步骤8.将 x0 的所有部分设置为0,除了 I 中的部分;将这些设置为步骤6的精确解找到的值;
步骤9.更新残差r=y-Ax;注意:当存在 j 属于 I c,xj=0,可以在步骤6的子问题中找到 Ax;
步骤10.返回第3步。
2.3 编解码方法
本文设计的语音编解码方法先用高斯随机矩阵对语音原始信号进行压缩感知观测,利用得到的观测值和由测量矩阵与稀疏字典构成的感知矩阵,用Incrowd算法重构出语音信号稀疏系数,再将重构出的稀疏系数通过稀疏逆变换还原出语音信号,从而实现了低复杂度的语音编解码过程。编解码过程如图1所示。
3 实验结果
本次实验采用的语音信号来自清华大学中文语料库,其中采样频率为16 000 Hz,一次取1 024个样本点进行重构,将本文所用算法与压缩感知中具有代表性的基追踪BP算法在语音恢复时间上进行对比,选用的稀疏基为小波矩阵,选用大小为 512×1 024的高斯随机观测矩阵,设置自变量为50到500的测量值。如图2所示,在不同的测量值下,本文所使用的算法在信号重构时间上均优于经典的BP算法。由此可见,本文所用算法在研究低延时的语音编解码方法上具有一定的可行性。
4 结语
综上所述,本文使用的压缩感知语音快速编解码方法在运行时间上具有一定的优势,对于追求低延迟的移动网络电话的应用具有一定的意义。
[参考文献]
[1]DONOHO D L. Compressed sensing[J].IEEE Transactions on Information Theory,2006(4):1289-1306.
[2]石光明,刘丹华,高大化,等.压缩感知理论及其研究进展[J].电子学报,2009(5):1070-1081.
[3]CHEN S S,DONOHO D L,SAUNDERS M A. Atomic decomposition by basis pursuit[J].Siam Review,2001(1):129-159.
(编辑 王雪芬)