基于稀疏表示和字典学习的语音增强算法研究

被引量 : 0次 | 上传用户:gdmkhx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人们进行语言交流的重要信息载体,但是在现实环境里,语音信号往往会被各种类型的干扰和噪声所污染。被污染的语音不仅会在主观上使人产生听觉厌恶和疲劳,而且还会严重影响语音信号的可懂度。语音增强的目的就是抑制和消除被污染语音中的干扰和噪声,从而提高语音的质量和可懂度。根据污染源类型的不同,可以将语音增强分为语音分离和语音降噪问题,其中前者的污染源是干扰语音,而后者的污染源是背景噪声。传统的语音分离和语音降噪算法在一定条件下能取得比较好的性能,但是也存在一定的局限性。例如,源信号个数比混合信号多的欠定语音分离问题一直是一个难题;在语音降噪问题中,传统方法对非平稳噪声的抑制能力往往有限。本文结合稀疏表示和字典学习理论,针对上述两个难题开展研究,提出了若干算法用于语音分离和降噪,主要的工作和创新点包括:首先,针对欠定语音分离问题,提出了基于语音双层稀疏模型的欠定语音分离算法。该算法包含两步,在第一步,我们首先对混合信号每个时频点邻域平均得到协方差矩阵,然后对该矩阵进行奇异值分解,筛选出能够较好满足窗联合正交假设的时频点进行聚类,得到较为精确的混合矩阵估计。在第二步,基于语音信号能量都集中在低频的特性,提出了双层稀疏模型,把语音信号分解成低频和高频两层。将基于此模型训练出的双层字典用于语音分离,能够降低不同源信号在字典上投影支撑集的重合度,以提高分离性能。在仿真实验,我们将所提的混合矩阵估计算法和基于双层稀疏模型的语音分离算法与传统方法进行了比较,以验证所提算法的有效性。其次,针对单通道语音分离问题,提出了基于区分性字典学习和基于分层字典学习的单通道语音分离算法。传统方法分别独立地学习每个源对应的子字典,而没有同时利用不同子字典之间的相互约束关系,从而将源信号在复合字典上进行稀疏表示的时候,其部分成分会投影在非对应子字典上,即混淆投影存在,此时字典区分性不够,分离性能不佳。针对此问题,我们提出了区分性字典学习方法,即联合考虑不同子字典之间的关系,使得每个源信号能够在复合字典中的对应子字典上进行稀疏表示,而抑制其在非对应子字典上的表示。进一步,考虑到单层区分性字典学习方法在单通道语音分离中还是留有一定的混淆投影,我们又提出了分层字典学习方法,在多个层次上对字典进行约束,减少混淆投影,增加字典的区分性。为了验证所提算法的优越性,我们给出了仿真实验,对比所提的区分性字典学习及分层字典学习和传统方法的单通道语音分离性能。最后,针对语音降噪问题,提出了语音和噪声联合字典学习方法和信号-特征字典学习方法。传统方法独立的学习一个语音字典和一个噪声字典,再将语音和噪声的混合信号在复合字典上进行稀疏表示来达到降噪的目的。但是这样做会导致较为严重的源混淆,即部分语音成分会被噪声字典解释,而部分噪声成分会被语音字典解释。为了增加语音字典和噪声字典的区分性和差异性,我们利用带噪信号和干净信号的训练样本,约束训练样本在对应字典上稀疏表示的近似误差和字典之间的相干性,联合训练语音字典和噪声字典,从而使得它们在增强阶段能够尽量减少语音和噪声的混淆。另外,为了利用语音和噪声信号每个时频点及其邻域的相关性,提出了一种基于邻域权重信息的特征提取方法,并且通过约束信号和特征在对应的信号字典和特征字典上具有相同的稀疏表示系数,来联合学习信号字典和特征字典,然后在增强阶段,直接利用信号字典估计出一路语音信号,利用特征字典生成的时频掩码可以估计出另一路语音信号,将这两路语音信号进行加权,从而得到最终增强的语音。仿真实验对比了所提的联合字典学习和信号-特征字典学习相比于传统方法对非平稳噪声的抑制能力。
其他文献
目的本研究围绕白细胞介素-6/Janus激酶2/信号转导和转录激活因子3/细胞因子抑制因子3 (Interleukin-6/Janus kinase 2/Signal transducer and activator of transcription 3
<正>在市场经济条件下,经济和政治体制的状况决定着利益分配格局,而利益分配格局又直接引导政府组织、社会组织以及个体的行为决策。这种决策则直接规定着我们对社会发展方式
源于民间、流传广泛的谚语与其他文学形式相比,具有更加浓厚和深刻的乡土色彩,因而也更能够反映出传统中国乡民的法律意识与诉讼心态。通过对这类资料的梳理、考察与阐释,我
消化道出血是临床常见的一种急症,常伴有不同程度的失血性休克,病情常危急患者的生命,护士必须密切配合医疗争分夺秒,积极抢救,现将多年护理体会汇报如下.
<正>患者,男,52岁,因摔伤致腰部疼痛5 h余,于2013年9月23日入院。既往患者身体健康,否认有高血压病、糖尿病、传染病史,无食物、药物过敏史。体检:T 36.7℃,P 70次/min,R 20
姜黄素是姜黄属植物中的主要活性成分,具有抗氧化、抗肿瘤、抗炎、抑菌及免疫调节等多方面的生理作用。本文综述了姜黄素的生理功能及其在水产配合饲料中的应用。
“上乘”之“乘”的音义徐世荣“上乘”一词,今日普通话书面语中仍常用,如说“质量上乘”“技艺上乘”“上乘之作”“上乘的演奏”等等。“上乘”赞美品质优越,和“高级”“高档
网络服务提供者在网络信息交流中处于中立第三方地位。在网络用户利用网络服务实施侵害著作权行为的情况下,网络服务提供者作为共同侵权行为的帮助人,承担间接责任。这是一种
受工业革命及建筑主流设计的影响,艺术设计往往将功能需求放在首位而忽略了人类生活最为核心的需求。城市景观也不例外,从工业革命之前城市景观的神学精神到城市景观是为君王
<正>在行为符合构成要件时,阻却违法性的根据是该行为保护了更为优越的或至少是同等的法益,而不是行为符合某种规则。在伦理学上,有的学者对行为功利主义与规则功利主义进行