论文部分内容阅读
基于麦克风阵列的说话人定位与跟踪技术在音/视频会议系统、公共安全监控系统、语音识别、车载电话、机器人等领域得到广泛应用。近年来,随着无线传感器网络和集成电路技术的发展以及嵌入式处理器计算能力的显著提高,基于麦克风阵列网络的分布式说话人定位与跟踪技术成为语音信号处理领域的研究热点。采用分布式数据处理方式,分布式说话人定位方法不限制麦克风阵列网络的拓扑结构,其容错能力较强,可靠性和稳定性高,但它只利用当前帧的语音信号对声源进行定位,对背景噪声和房间混响鲁棒性较差。因此,需要采用分布式说话人跟踪方法来确定说话人的运动轨迹,以获得更好的声源位置估计性能。分布式说话人跟踪是典型的非线性状态估计问题。本文针对分布式麦克风网络提出了几种分布式非线性卡尔曼滤波算法,并将这些算法用于麦克风阵列网络的说话人跟踪问题,提出了几种分布式声源跟踪方法,实现对说话人运动轨迹的有效估计。本文的主要贡献如下:(1)针对分布式声源定位方法对背景噪声和房间混响鲁棒性差的问题,提出了一种基于分布式麦克风阵列网络的分布式卡尔曼滤波说话人跟踪方法。该方法考虑到噪声和混响影响使得时间延迟估计可能存在虚假值,引入了一种时延甄别策略,并在对声源进行跟踪时,从邻域搜集有效的时延估计作为观测信息,用郎之万模型描述说话人运动状态,然后用分布式卡尔曼滤波对说话人位置进行准确估计。该方法充分利用当前和过去时间帧的语音信号,能够有效解决分布式说话人定位的鲁棒性差问题,具有通信负担小、可靠性和稳定性高、使用灵活等优点。(2)针对说话人跟踪中观测模型的非线性问题,提出了一种分布式无味卡尔曼滤波方法,其可达到二阶估计精度。在此基础上,为充分描述室内环境说话人不同运动模式,引入交互式多模型算法,提出了一种基于麦克风阵列网络的分布式交互多模型无味卡尔曼滤波说话人跟踪方法。该方法对声源进行跟踪时,从邻域搜集有效的时延估计,并用不同模型描述说话人驻足、慢走、快走及加速等运动模式,然后融合不同模型的无味卡尔曼滤波结果,因此能够有效提高说话人位置的估计精度。(3)针对声源跟踪时说话人的初始状态可能未知或误差较大问题,提出了一种分布式迭代拓展卡尔曼滤波方法,并将该方法用于麦克风阵列网络的说话人跟踪问题中。此外,还引入一种迭代终止策略,使迭代过程始终向似然增加的方向进行,从而获得最大似然意义下的近似最优解。该方法在跟踪过程中,通过增加几次简单的局部迭代,即使当说话人的初始位置误差较大时,也能够快速捕捉到说话人的位置,因此具有更快的收敛速度,也能有效提高说话人位置的估计精度。(4)考虑到求容积卡尔曼滤波估计精度高,迭代拓展卡尔曼滤波收敛速度快的优点,提出了一种迭代求容积卡尔曼滤波方法,可达二阶估计精度。在此基础上,提出了一种分布式迭代求容积卡尔曼滤波方法,并将该方法用于麦克风阵列网络的说话人跟踪问题中。该方法具有二阶估计精度,且计算量较小,收敛速度快,能够有效求解说话人跟踪中观测模型的非线性问题,提高说话人跟踪性能。