论文部分内容阅读
计算听觉场景分析(CASA)是现代语音信号处理研究领域中的一个新兴课题。在自然环境下,来自于多个声音源的混合语音信号形成了一个典型的听觉场景,基于听觉场景分析(ASA)可以从复杂声学环境中分离出目标语音,分离效果比较理想,但是随着人机交互学、自动语音识别(ASR)、助听器设计等研究的需要,噪声环境下的语音分离算法仍然存在较大的挑战。本文主要针对计算听觉场景分析(CASA)分离混合语音信号的问题进行研究,归纳和分析了当前基于CASA的语音分离算法和声音、噪声的一些特性,重点研究了基于信号能量的混合语音分离算法和基于信号起始时刻和截止时刻的语音分离算法,具体工作和创新如下:人耳听觉系统对于语音信号高低频的处理机制不一样,而且混合语音信号在高频段的能量较低,容易受到噪声的干扰,根据这一特性,提出基于信号能量的混合语音分离算法,在听觉分割之前先计算信号的能量值,由于高频部分能量较低,因此,根据能量比值去除掉信号高频部分有可能来自噪声的那些时频(T-F)单元。这样,听觉重组之后的目标语音信号将更少的受到噪声干扰,使得分离结果更有效。对于不同声音源的信号,几乎不可能具有相同的开始时刻和截止时刻,因此,基于这一声音线索,也可以完成混合语音信号的分离。本文采用一种准确的包络提取算法提取信号的开始时刻点onset和截止时刻点offset,然后进行包络平滑,对候选的起止和截止时刻点进行检测和组合,得到听觉片段,最终根据二值模知识分离出目标语音信号。本文在Win7平台Visual C++6.0开发环境下,选用Cookie数据集进行仿真实验,并对实验结果进行了性能评估,验证了所提算法的有效性和可行性。