论文部分内容阅读
摘 要:随着科技的进步和发展,声源定位技术已经成为人们研究的重要课题之一。基于声达时间差(TDOA)是阵列语音信号处理的核心技术,其作用是估算出同一声源信号到达不同麦克风时,因为传输的距离不相同而引起的时间差。麦克风阵列对于室内环境噪声抑制、声源定位、跟踪这些方面都比单个麦克风有优势,从而优化语音信号采样质量。该文主要讲的是用麦克风阵列和时延估计声源定位方法对声源进行定位及跟踪。
关键词:麦克风阵列 声源定位 声达时间差(TDOA)
中图分类号:TN912.34 文献标识码:A 文章编号:1672-3791(2016)05(a)-0003-02
基于麦克风阵列的声源定位技术的研究在全国的关注度越来越高,基于麦克风阵列的声源定位技术是指经过麦克风阵列对声音信号进行采集,从而进行信号处理得到声源到达阵列的波达方向。目前,在全球所有的电子产品都趋向于高度智能化发展的今天,声源定位技术依然扮演着语音通信领域中举足轻重的技术角色。譬如在视频通话中,利用声源定位技术操控摄像头,能够自动搜寻发言者。在20世纪70年代,就已经有很多高校和研究室在这一通信领域进行研究探索,从此基于麦克风阵列的声源定位,语音信号处理中的说话人识别,语音合成等语音信号处理成为科技研究的热点。与单麦克风系统相比之下,麦克风阵列系统在语音信号处理方面具有显著优势:多个麦克风组成的麦克风阵列能够利用互补性能,对背景噪声进行消除和增强语音信号,从而提高语音识别的效果,同时能在一定范围内对声源信号进行实时定位与跟踪,但是单个麦克风却没有能力做到这一点。因此,具有良好的抗噪性、良好的抗混响性能以及简单的计算量或较快的运算速度是一个优秀的时延估计方法所具备的优点。
1 时延估计算法
基于声达时间差的麦克风阵列声源定位的技术主要分为两个步骤:第一步估算语音信号到达阵列中阵元间的时间差(TDOA),进而通过几何关系来确定声源的位置。首先估算时延是该定位技术中的核心内容。声达时间差声源定位的定位精度主要取决于对TDOA的估计。而且时延估计的技术不被阵列结构所限制,运算量少,有相对的精度,因此是当前最常用的技术。声源在受到噪声,混响较小的情况下,能够利用简易的广义互相关方法(GCC)来估算时延,处理声源的定位问题。然而当噪声增大时,混响的变强,简易的广义互相关方法和许多常用的加权广义互相关方法已经完全不能解决估算时延的问题。优化相位互相关方法,锐化了互相关函数的峰值,从中起到了相对的抗混响的作用,增强了估算时延的精度。利用麦克风阵列每一个麦克风接收信号的互补性,采用多信道互相关系数(MCCC)方法来估算任意一对麦克风之间的时延。这种方法能抵抗中度混响和噪音的影响,增强时延估算的性能。然而这种方法在噪音和混响复杂的应用情况中效果不是很完美,并且这种途径对麦克风间的物理结构关系有较高的限制,倘若每个麦克风之间的结构十分繁杂,该途径在时延估量方面也可能会被弱化。时延估计的算法有很多,但是由于该系统主要应用在室内场所,其噪声空间相对平稳以及混响相对较小,故采用TDOA算法中运算量较小的GCC方法来对第一步的时延进行估计分析。其示意如图1所示。
要估计出时延,余下的环节只是运用数学方法进行简单的计算。关于二维平面定位,仅须要两个独立的时延估计值,相同的,对于三维空间则须要三个独立的时延估计值,任一个时延估计值对应一个二次、三次方程,求解这些方程组就可以算出声源的坐标,所以时延估计算法的第二步就是根据第一步计算出来的实验估计值运用数学方法进行简单的计算。总之,基于时延估计的声源定位技术在数学计算量上与其他的定位算法相比具有很好的优势,在实际应中的运用成本很低。
2 广义互相关(GCC)时延估计算法
由于同一个声源的语音信号中存在一定的相关性,因此利用GCC方法计算任意一个麦克风捕捉到的信号之间的相关函数来估算出时延(TDOA)值,这个互相关函数得到的峰值所对应的时间即为两信号之间的相对时延。但是在真实应用环境下,因为噪声和混响的干扰下,相关函数得到的最大峰值就会被减弱,甚至可能出现好几个峰值,由于这种原因将会影响所需峰值检测难度。经过GCC法计算出这两个语音信号之间的互功率谱,同时在频域内进行加权,增强需要信号的相关成分,能够使相关函数在时延处的峰值更为突出,然后进行逆变换得出时域,进而求出两信号间所需的互相关函数。
3 算法仿真
假设噪声与源信号之间互相独立。SRN1和SRN2分别为接收的信号的信噪比,仿真中采用延时为d=20,采样点数为1 024,两路信号的信噪比SRN1取5dB固定不变,SRN2在0~20 dB取值进行1 000此梦特卡洛广义时延估计仿真,图2为输入信号波形;在仿真中,取信噪比为SRN1=5 dB,SRN2=-10 dB,所得到的相位变换广义互相关(GCC—PHAT)波形如图3所示。
综合上述的理论分析以及仿真结果表明,在高斯信噪比的情况下,随着信噪比降低,Phat权值的峰值仍然锐化效果明显。因此,利用相位变换广义互相关法(GCC—PHAT)的两路信号间时延差比判断得到最大值得到时延差的精度更高,得到的目标坐标值收敛,稳定,满足实际需求。
4 结语
声源定位在噪声环境下的实现是一个难点,通过上述理论分析和仿真显示在基于TDOA的声音定位系统可以准确地定位声响模块的位置,相位变换广义互相关算法(GCC—PHAT)在无混响或者弱混响环境下具有很好的效果和好的实时性,且Phat加权随信噪比变化的波动性很小,主峰值相比次峰仍较为尖锐,体现出较好地抗噪声性能。相比于传统的方法,在保证时延估计准确的前提下,相位变换广义互相关算法(GCC—PHAT)有效降低了计算复杂度,更适合于时延的实时估计。
参考文献
[1] 王宏禹,岳天爽.自适应噪声抵消和时间延迟估计[M].大连:大连理工大学出版社,1999.
[2] 丁玉美,阔永红,高新波.数字信号处理——时域离散随机信号处理[M].西安:西安电子科技大学出版社,2002.
[3] 刘松平,MICHAEL G,陈积懋.模态声发射检测技术[J].无损检测,2002,22(1):38-41.
关键词:麦克风阵列 声源定位 声达时间差(TDOA)
中图分类号:TN912.34 文献标识码:A 文章编号:1672-3791(2016)05(a)-0003-02
基于麦克风阵列的声源定位技术的研究在全国的关注度越来越高,基于麦克风阵列的声源定位技术是指经过麦克风阵列对声音信号进行采集,从而进行信号处理得到声源到达阵列的波达方向。目前,在全球所有的电子产品都趋向于高度智能化发展的今天,声源定位技术依然扮演着语音通信领域中举足轻重的技术角色。譬如在视频通话中,利用声源定位技术操控摄像头,能够自动搜寻发言者。在20世纪70年代,就已经有很多高校和研究室在这一通信领域进行研究探索,从此基于麦克风阵列的声源定位,语音信号处理中的说话人识别,语音合成等语音信号处理成为科技研究的热点。与单麦克风系统相比之下,麦克风阵列系统在语音信号处理方面具有显著优势:多个麦克风组成的麦克风阵列能够利用互补性能,对背景噪声进行消除和增强语音信号,从而提高语音识别的效果,同时能在一定范围内对声源信号进行实时定位与跟踪,但是单个麦克风却没有能力做到这一点。因此,具有良好的抗噪性、良好的抗混响性能以及简单的计算量或较快的运算速度是一个优秀的时延估计方法所具备的优点。
1 时延估计算法
基于声达时间差的麦克风阵列声源定位的技术主要分为两个步骤:第一步估算语音信号到达阵列中阵元间的时间差(TDOA),进而通过几何关系来确定声源的位置。首先估算时延是该定位技术中的核心内容。声达时间差声源定位的定位精度主要取决于对TDOA的估计。而且时延估计的技术不被阵列结构所限制,运算量少,有相对的精度,因此是当前最常用的技术。声源在受到噪声,混响较小的情况下,能够利用简易的广义互相关方法(GCC)来估算时延,处理声源的定位问题。然而当噪声增大时,混响的变强,简易的广义互相关方法和许多常用的加权广义互相关方法已经完全不能解决估算时延的问题。优化相位互相关方法,锐化了互相关函数的峰值,从中起到了相对的抗混响的作用,增强了估算时延的精度。利用麦克风阵列每一个麦克风接收信号的互补性,采用多信道互相关系数(MCCC)方法来估算任意一对麦克风之间的时延。这种方法能抵抗中度混响和噪音的影响,增强时延估算的性能。然而这种方法在噪音和混响复杂的应用情况中效果不是很完美,并且这种途径对麦克风间的物理结构关系有较高的限制,倘若每个麦克风之间的结构十分繁杂,该途径在时延估量方面也可能会被弱化。时延估计的算法有很多,但是由于该系统主要应用在室内场所,其噪声空间相对平稳以及混响相对较小,故采用TDOA算法中运算量较小的GCC方法来对第一步的时延进行估计分析。其示意如图1所示。
要估计出时延,余下的环节只是运用数学方法进行简单的计算。关于二维平面定位,仅须要两个独立的时延估计值,相同的,对于三维空间则须要三个独立的时延估计值,任一个时延估计值对应一个二次、三次方程,求解这些方程组就可以算出声源的坐标,所以时延估计算法的第二步就是根据第一步计算出来的实验估计值运用数学方法进行简单的计算。总之,基于时延估计的声源定位技术在数学计算量上与其他的定位算法相比具有很好的优势,在实际应中的运用成本很低。
2 广义互相关(GCC)时延估计算法
由于同一个声源的语音信号中存在一定的相关性,因此利用GCC方法计算任意一个麦克风捕捉到的信号之间的相关函数来估算出时延(TDOA)值,这个互相关函数得到的峰值所对应的时间即为两信号之间的相对时延。但是在真实应用环境下,因为噪声和混响的干扰下,相关函数得到的最大峰值就会被减弱,甚至可能出现好几个峰值,由于这种原因将会影响所需峰值检测难度。经过GCC法计算出这两个语音信号之间的互功率谱,同时在频域内进行加权,增强需要信号的相关成分,能够使相关函数在时延处的峰值更为突出,然后进行逆变换得出时域,进而求出两信号间所需的互相关函数。
3 算法仿真
假设噪声与源信号之间互相独立。SRN1和SRN2分别为接收的信号的信噪比,仿真中采用延时为d=20,采样点数为1 024,两路信号的信噪比SRN1取5dB固定不变,SRN2在0~20 dB取值进行1 000此梦特卡洛广义时延估计仿真,图2为输入信号波形;在仿真中,取信噪比为SRN1=5 dB,SRN2=-10 dB,所得到的相位变换广义互相关(GCC—PHAT)波形如图3所示。
综合上述的理论分析以及仿真结果表明,在高斯信噪比的情况下,随着信噪比降低,Phat权值的峰值仍然锐化效果明显。因此,利用相位变换广义互相关法(GCC—PHAT)的两路信号间时延差比判断得到最大值得到时延差的精度更高,得到的目标坐标值收敛,稳定,满足实际需求。
4 结语
声源定位在噪声环境下的实现是一个难点,通过上述理论分析和仿真显示在基于TDOA的声音定位系统可以准确地定位声响模块的位置,相位变换广义互相关算法(GCC—PHAT)在无混响或者弱混响环境下具有很好的效果和好的实时性,且Phat加权随信噪比变化的波动性很小,主峰值相比次峰仍较为尖锐,体现出较好地抗噪声性能。相比于传统的方法,在保证时延估计准确的前提下,相位变换广义互相关算法(GCC—PHAT)有效降低了计算复杂度,更适合于时延的实时估计。
参考文献
[1] 王宏禹,岳天爽.自适应噪声抵消和时间延迟估计[M].大连:大连理工大学出版社,1999.
[2] 丁玉美,阔永红,高新波.数字信号处理——时域离散随机信号处理[M].西安:西安电子科技大学出版社,2002.
[3] 刘松平,MICHAEL G,陈积懋.模态声发射检测技术[J].无损检测,2002,22(1):38-41.