论文部分内容阅读
在自然环境中,一个典型的听觉场景中含有听觉噪声,例如环境噪声、音乐声以及其他人的说话声。噪声干扰目标语音给许多语音技术的应用带来了相当大的困难。单声道语音分离是指在单个信道情况下从混合语音信号中分离出目标语音。计算听觉场景分析是可以完成该分离任务的一种新方法,也是语音信号处理领域的研究热点。本文主要研究基于计算听觉场景分析的单声道语音分离问题。对听觉分割、高频时频单元标记和听觉重组后二值模的平滑处理等问题进行分析研究,提出一些改进的方法,并进行实验对比。本文的主要研究内容如下:(1)为了提高高频区域时频单元标记和听觉分割的准确性,本文提出了一种改进听觉组织的单声道浊语音分离算法。在组织阶段中,首先该算法利用不同的特征对高频和低频中的时频单元进行标记。采用增强包络自相关函数标记高频区域的时频单元。然后,利用起始和截止分析得到听觉片段,该方法可以有效地将语音和噪声分割到不同的片段。根据已经分离的浊语音二值模将这些片段选择性地重组到目标流中。系统评估表明,该算法优于原来的系统。(2)语音分离其实就是估计二值模,然后利用二值模从混合语音中合成目标语音。由于噪声的干扰降低了听觉线索提取的准确性,使得二值模中包含许多较小的噪声片段和破损的目标片段,导致合成的目标语音质量下降。结合形态学的二值图像处理方法,本文提出了基于掩码平滑的改进语音分离方法。该方法首先对二值模进行开运算操作,去除听觉流中噪声片段;然后进行闭运算操作修复破损的目标片段,获得丢失的目标单元。系统评估表明,经过平滑处理之后,合成目标语音的质量有所提升。