论文部分内容阅读
近年来,随着语音信号处理技术的发展,语音源测向已成为麦克风阵列信号处理中的一个热点和难点。基于麦克风阵列的测向技术不同于传统阵列信号处理中的测向技术,在一维测向系统中,一般采用到达两麦克风的时差估计来反推语音源的方向,因此时延估计的精度是此测向技术的关键。时延估计的方法很多,传统的时延估计方法如基本互相关、广义互相关等方法易受噪声的影响,在低信噪比情况下几乎失效,且大都只适用于单源情况。针对上述情况,本文研究一种新的时延估计方法,该算法把两麦克风接收的信号从时域变换到时频域,把宽带多语音源信号变成多个单时频点信号的叠加。由于语音信号是时频稀疏的,语音信号的能量主要集中在某些窄带上,且各语音源的能量集中区域不交迭。本方法利用语音信号的这一特性,以时延为分类的依据,对每个频点进行能量加权聚类,能量集中的窄带频率里的频点由于能量大,容易聚类出能量得到时延估计。同时由于每个语音源的时延不一样,聚类出的能量峰值所对应的时延不同,从而可以分别得出各个语音源的时延估计,因此该方法适合多语音源情况下的时延估计。由于语音信号能量主要集中在某些窄带,即使信噪比很低,窄带内的频点信噪比仍然较高,还是能够聚类出语音源的能量,得到时延估计,因此本方法也可以在低信噪比情况下正确估计出时延。在实际运用中,为了获得高的角度分辨力,一般采用大孔径的麦克风阵列。随着频点频率的增大,频点互功率谱所得的相位会出现模糊,导致频点的时延估计不能唯一确定,聚类中出现伪峰。本论文采用逐次标注法来消去由于相位模糊导致的伪峰,使峰值与语音源一一对应。本文首先阐述了该算法的原理和步骤,然后用仿真数据对这种算法进行了仿真,分析其各个参数对算法的影响。仿真结果表明,选取合适的能量门限,即使在低信噪比情况下,此方法也可以比较准确的得出多个语音源的时延估计,从而得出多个语音源的方向估计。最后用实测数据进行仿真,仿真结果表明此算法在实际噪声环境中也是可行的。