论文部分内容阅读
语音是人们进行语言交流的重要信息载体,但是在现实环境里,语音信号往往会被各种类型的干扰和噪声所污染。被污染的语音不仅会在主观上使人产生听觉厌恶和疲劳,而且还会严重影响语音信号的可懂度。语音增强的目的就是抑制和消除被污染语音中的干扰和噪声,从而提高语音的质量和可懂度。根据污染源类型的不同,可以将语音增强分为语音分离和语音降噪问题,其中前者的污染源是干扰语音,而后者的污染源是背景噪声。传统的语音分离和语音降噪算法在一定条件下能取得比较好的性能,但是也存在一定的局限性。例如,源信号个数比混合信号多的欠定语音分离问题一直是一个难题;在语音降噪问题中,传统方法对非平稳噪声的抑制能力往往有限。本文结合稀疏表示和字典学习理论,针对上述两个难题开展研究,提出了若干算法用于语音分离和降噪,主要的工作和创新点包括:首先,针对欠定语音分离问题,提出了基于语音双层稀疏模型的欠定语音分离算法。该算法包含两步,在第一步,我们首先对混合信号每个时频点邻域平均得到协方差矩阵,然后对该矩阵进行奇异值分解,筛选出能够较好满足窗联合正交假设的时频点进行聚类,得到较为精确的混合矩阵估计。在第二步,基于语音信号能量都集中在低频的特性,提出了双层稀疏模型,把语音信号分解成低频和高频两层。将基于此模型训练出的双层字典用于语音分离,能够降低不同源信号在字典上投影支撑集的重合度,以提高分离性能。在仿真实验,我们将所提的混合矩阵估计算法和基于双层稀疏模型的语音分离算法与传统方法进行了比较,以验证所提算法的有效性。其次,针对单通道语音分离问题,提出了基于区分性字典学习和基于分层字典学习的单通道语音分离算法。传统方法分别独立地学习每个源对应的子字典,而没有同时利用不同子字典之间的相互约束关系,从而将源信号在复合字典上进行稀疏表示的时候,其部分成分会投影在非对应子字典上,即混淆投影存在,此时字典区分性不够,分离性能不佳。针对此问题,我们提出了区分性字典学习方法,即联合考虑不同子字典之间的关系,使得每个源信号能够在复合字典中的对应子字典上进行稀疏表示,而抑制其在非对应子字典上的表示。进一步,考虑到单层区分性字典学习方法在单通道语音分离中还是留有一定的混淆投影,我们又提出了分层字典学习方法,在多个层次上对字典进行约束,减少混淆投影,增加字典的区分性。为了验证所提算法的优越性,我们给出了仿真实验,对比所提的区分性字典学习及分层字典学习和传统方法的单通道语音分离性能。最后,针对语音降噪问题,提出了语音和噪声联合字典学习方法和信号-特征字典学习方法。传统方法独立的学习一个语音字典和一个噪声字典,再将语音和噪声的混合信号在复合字典上进行稀疏表示来达到降噪的目的。但是这样做会导致较为严重的源混淆,即部分语音成分会被噪声字典解释,而部分噪声成分会被语音字典解释。为了增加语音字典和噪声字典的区分性和差异性,我们利用带噪信号和干净信号的训练样本,约束训练样本在对应字典上稀疏表示的近似误差和字典之间的相干性,联合训练语音字典和噪声字典,从而使得它们在增强阶段能够尽量减少语音和噪声的混淆。另外,为了利用语音和噪声信号每个时频点及其邻域的相关性,提出了一种基于邻域权重信息的特征提取方法,并且通过约束信号和特征在对应的信号字典和特征字典上具有相同的稀疏表示系数,来联合学习信号字典和特征字典,然后在增强阶段,直接利用信号字典估计出一路语音信号,利用特征字典生成的时频掩码可以估计出另一路语音信号,将这两路语音信号进行加权,从而得到最终增强的语音。仿真实验对比了所提的联合字典学习和信号-特征字典学习相比于传统方法对非平稳噪声的抑制能力。