【摘 要】
:
语音增强技术是人机交互系统在复杂声学环境中正常工作的重要保证。根据采用麦克风数量的不同,语音增强技术可分为单通道和多通道语音增强。相较于后者,单通道技术并不依赖于麦克风精度,具有易用性和有效性而被广泛研究。目前主流的单通道方法通常是基于时域和变换域中语音和噪声的差异性特征。然而这些方法过于依赖于噪声估计精度,且在低信噪比条件下面临鲁棒性被制约等问题。针对以上难题,本文分别从频域、调制域和时域角度,
论文部分内容阅读
语音增强技术是人机交互系统在复杂声学环境中正常工作的重要保证。根据采用麦克风数量的不同,语音增强技术可分为单通道和多通道语音增强。相较于后者,单通道技术并不依赖于麦克风精度,具有易用性和有效性而被广泛研究。目前主流的单通道方法通常是基于时域和变换域中语音和噪声的差异性特征。然而这些方法过于依赖于噪声估计精度,且在低信噪比条件下面临鲁棒性被制约等问题。针对以上难题,本文分别从频域、调制域和时域角度,深入研究语音信号的稀疏性、低秩性和谐波特性,设计了相应的语音增强算法,主要贡献和成果总结如下:(1)针对频域单通道语音增强算法对噪声估计准确性依赖问题,本文提出了一种基于频域k近邻稀疏模式学习的近似消息传递方案。该方案深入挖掘语音信号与部分背景噪声信号频域内稀疏性差异:首先,对语音的先验稀疏分布进行伯努利-高斯分布建模,并利用近似消息传递算法迭代更新,获得增强语音的最优后验概率;其次,基于帧内相邻系数间的相关性,采用k近邻分类方法提高每帧语音稀疏度的学习精度;最终实现在噪声估计及完全稀疏等先验条件缺失情况下,所提方案依然可获得较好的语音增强效果。实验结果表明,当输入信噪比(SNR,Signal-to-Noise Ratio)为5 dB时,与基于噪声估计的维纳滤波法相比,所提方案的语音质量的感知评价(PESQ,Perceptual Evaluation of Speech Quality)得分提高了约 0.08。(2)针对调制域算法低信噪比平稳噪声场景中语音感知质量性能欠佳问题,本文提出了一种基于调制域改进的帧迭代谱减法方案。该方案充分利用语音信号调制域内相较于频域内更稀疏、与噪声信号分布区别性更明显的特点:首先,基于语音的帧间相关性,设计了一种联合基于双阈值的压缩感知和帧迭代谱减法的降噪方案;其次,为进一步抑制伪影不良影响,设计了一种基于分段SNR(segSNR,Segmental Signal-to-Noise Ratio)的掩蔽方案;最终实现在减少重构语音帧数的同时,提高语音增强系统的抗噪能力。实验结果表明,在输入SNR为-5 dB的白噪声环境中,与调制域谱减法相比,所提方案的平均segSNR提高了约1.08 dB,平均PESQ得分提高了约0.09。(3)针对时域传统单通道语音增强算法非平稳噪声场景中客观可懂度性能欠佳问题,本文提出了一种基于时域自适应低秩矩阵分解方案。该方案深入挖掘时域内语音信号与噪声信号低秩性差异,且可避免上述方案相位近似重构缺陷的特点:首先,利用基于最大熵准则的低秩矩阵分解方案抑制多类型噪声;其次,针对采用固定秩值运算的局限性问题,设计了一种能量阈值方案自适应地更新每帧语音的有效秩,从而高效地获取干净语音成分。实验结果表明,在输入SNR为0 dB的babble噪声场景中,与有约束的低秩稀疏矩阵分解方案相比,所提方案的平均segSNR、平均PESQ和平均短时客观可懂度(STOI,Short-Time Objective Intelligibility)分别提高了约 0.34 dB、0.15 和 0.07。(4)针对联合时域与调制域各自优势的融合特征在深度学习上可行性问题,本文提出了一种基于调制域辅助特征的时域卷积网络方案。该方案通过深入挖掘语音信号的谐波特性实现语音增强:首先,通过利用时域特征可弥补调制域相位信息、调制域特征可充分表示语音属性的特点,实现对重构语音精度的提高;其次,针对模型收敛和梯度消失问题,设计了一种通过分解门控卷积单元,并搭载同时具有跳连接和残差连接的带洞卷积机制的改进网络结构;最终实现语音增强系统性能的提高。实验结果表明,在输入SNR为0 dB的babble噪声场景中,与原始时域卷积网络方案相比,所提方案的平均PESQ和平均STOI得分分别提高了约0.12和0.02。
其他文献
本论文围绕第五代(Fifth Generation,5G)移动通信的物理层关键技术之一—大规模多入多出(Multiple-Input Multiple-Output,MIMO)信道建模与信道估计技术展开研究。通过在基站侧部署大规模天线阵列,大规模MIMO技术的高频谱效率和高能量效率优势得到了学术界和工业界的普遍认可。无线通信系统的传输速率和质量直接受到无线传播环境的影响,因此,对无线信道的研究是大
研究区位于尼木—那曲高温水热带,当雄-羊八井-多庆错活动构造带中段。区内水热活动发育,自北向南大致可划分为五个水热显示区,北部的恰拉改沟口区与南部的卜杰母沟口区沉积有大片泉华台地。本次工作通过开展羊易地热田的野外调研和泉华取样工作,收集地热流体和岩浆岩的地球化学数据,系统地研究了泉华的年龄、矿物组成和组构特征和地球化学特征,揭示泉华的物质来源,建立水热活动时空格局,探讨研究区水热活动的成因机制,为
广西宝坛地区位于江南造山带西段,对于探讨华南早期演化历史有着非常重要的意义。宝坛地区岩浆活动丰富,广泛出露镁铁-超镁铁质岩、火山岩、花岗质岩浆岩等。本文根据野外调查和镜下观察,选取区域内镁铁-超镁铁质杂岩体、火山-火山碎屑岩、未变形辉长-闪长岩进行了研究,通过详细的野外地质考察、岩相鉴定、矿物电子探针分析、锆石U-Pb同位素年代测试、岩石地球化学测试等分析,探讨研究区内镁铁-超镁铁质杂岩体的期次和
结核病是由结核分枝杆菌感染导致的传染病,目前仍是威胁人类健康的主要传染病。2014年,世界卫生组织报告结核分枝杆菌引起960万人的感染,并造成150万人死亡。据统计,世界上大概1/3的人感染过结核分枝杆菌,但不是所有的被感染者都会引起结核病,大部分无症状或者症状轻微,为隐性感染,仅约10%的感染者发展为结核病。结核分枝杆菌感染宿主,细菌的毒力和宿主的免疫反应决定了疾病的转归。近些年来,关于病原体的
随着智能设备的发展与普及,网络中接入的海量智能终端设备产生了大规模的运行数据,数据规模呈爆发式增长,给资源受限的本地用户带来了极大的数据管理压力。基于云计算服务提供的数据存储与计算的外包服务模式,越来越多的用户乐意将自身的数据外包给云服务平台进行管理。具体来说,在云计算中,通过云服务商提供的存储空间和计算能力外包服务,用户可以依照自身数据规模和计算任务,购买云服务商的存储空间以及计算服务,这样不仅
图是数据分析的一种关键技术,能够充分建模真实系统中实体之间的复杂关联和交互行为。图表示学习旨在将高维稀疏的拓扑节点映射成低维向量表示并同时保持图中的信息,用于节点分类、链接预测和推荐系统等多种基础任务,是图数据挖掘领域的重点研究方向。当前,图建模和图表示学习主要聚焦于静态的同质图,认为实体类型单一且实体间的交互恒定不变。然而,在实际的社会媒体、电商平台以及学术网络等系统中,通常存在多种类型的实体以
安吉拉·卡特(1940-1992),英国当代文坛最具先锋开拓精神的作家之一,其文学创作始终关注女性面临的生存困境,以极具个人风格的写作方式表达她对女性问题深刻而独到的见解。本文选取卡特的六部代表作,从女性生存困境与出路的角度讨论卡特在文学创作中对女性问题的思考及独特性与思想贡献。本论文共分三部分,包括绪论、正文与结语。绪论首先对卡特的生平、作品进行简单梳理,进而提出论文所要探讨的问题,对研究缘起进
位置服务在智慧城市、智慧工厂、公共安全等众多领域中都发挥着重要作用。复杂环境下传统非协同无线定位技术容易出现信号盲区,导致定位精度差甚至无法提供定位功能,难以满足高精度高可靠的定位需求。协同定位技术的出现为复杂环境下的高精度高可靠定位提供了新的解决思路,已成为定位导航领域的研究热点。本文针对在仅依靠锚节点无法完成定位的欠定位环境下协同定位面临的主要难题,深入研究了基于空间相关性的测距误差协同补偿、
政府举债对社会经济的影响一直是经济学界研究的重点问题之一,2009年欧洲主权债务危机的爆发使地方政府举债问题重新被推向经济学研究的前沿。如今,地方政府债务衍生出的问题非常棘手,如何预防地方政府债务的急剧膨胀,如何化解居高不下的债务规模等,均成为当代经济学家和政策制定者密切关注的问题。在中国,随着近年来杠杆率的快速上升,全社会债务风险不断增大,地方政府债务规模的不断扩张受到了越来越多专家学者的关注。
本文旨在研究糙皮侧耳(Pleurotus ostreatus)对棉籽壳木质纤维素降解,及饲喂经糙皮侧耳发酵后的棉籽壳对绵羊营养物质消化代谢和粪便微生物多样性的影响;对棉籽壳游离棉酚的降解以及其机制,为微生物发酵棉籽壳脱毒和粗饲料的开发应用提供参考。主要研究结果如下:试验一:高效木质纤维素降解菌株的筛选及液体培养基成分的优化通过平板显色、退色反应进行初步筛选和液体产酶试验进行复筛选,得到木质纤维素降