【摘 要】
:
语音是人与人之间交流的主要方式,但是生活环境中会存在各种各样的噪声,影响语音信号的清晰度和可懂度,降低语音质量。为了保证语音信号传送的准确性,必须对这些噪声进行抑制。噪声分稳态噪声和非稳态噪声,非稳态噪声又分为瞬态噪声和其他噪声。稳态噪声的抑制相对于瞬态噪声来说比较成熟,瞬态噪声由于存在随机性和非线性特性抑制或消除起来较比较困难,目前也是含噪信号的研究难点和技术瓶颈。比如人机语音交互过程中突然产生
【基金项目】
:
国家自然科学基金青年基金项目(11804068); 黑龙江省自然科学基金资助项目(LH2020F033);
论文部分内容阅读
语音是人与人之间交流的主要方式,但是生活环境中会存在各种各样的噪声,影响语音信号的清晰度和可懂度,降低语音质量。为了保证语音信号传送的准确性,必须对这些噪声进行抑制。噪声分稳态噪声和非稳态噪声,非稳态噪声又分为瞬态噪声和其他噪声。稳态噪声的抑制相对于瞬态噪声来说比较成熟,瞬态噪声由于存在随机性和非线性特性抑制或消除起来较比较困难,目前也是含噪信号的研究难点和技术瓶颈。比如人机语音交互过程中突然产生的敲桌子声、玻璃杯破碎声、键盘声等会对语音质量产生很大的干扰,因此去除语音信号中突然产生的这种瞬态噪声是提高人机交互质量的重要前提。现阶段对此类噪声的抑制效果仍然不理想,主要原因是此类噪声的突发性极强、能量很大、且和语音信号常常混叠在相同频段,现有单通道算法很难把它从语音信号中分离出来,因此对低信噪比场景下语音信号中瞬态噪声的消除研究就非常迫切。首先,为了解决对瞬态噪声跟踪慢、欠估计的问题,在传统的最优改进对数幅度谱估计(Optimally Modified-Log Spectral Amplitude,OM-LSA)方法的基础上,本文使用改进的时间递归平均(Improve Mean Recurrence Time,IMRT)算法代替最小值控制递归平均(Minima Controlled Recursive Averaging,MCRA)算法对瞬态噪声谱进行估计,然后用先验信噪比和语音存在概率推导出最优增益函数,从而得到纯净语音的对数幅度谱,再经过傅里叶反变换,进而得到估计出的纯净语音信号。基于自采数据集进行实验,验证本文提出算法对瞬态噪声的去除效果,结果表明,本文所提算法在-5d B时分段信噪比(seg SNR)和语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)分别最高提高了11.76和0.97。其次,基于现有深度学习的语音增强方法都是把整个带噪语音送入到神经网络中进行语音增强,由于瞬态噪声并不是在语音的整个时间段都存在,因此,这种方法并不适用于瞬态噪声的抑制。为了保证语音信号的完整性,本文并没有把全部语音送入到神经网络中,而是先用OM-LSA算法估计出瞬态噪声,并利用幅度阈值确定瞬态噪声存在段的时域掩膜,通过前向搜索使之成为连续,最后把带噪语音和掩膜时域乘积取出瞬态噪声段,送入到深度复数值U型网络(Deep Complex U-Net,DCU-Net)中进行噪声抑制,获得增强语音段,最后将增强语音段插入到原语音序列中,即获得增强后的语音信号。基于自采集数据集进行实验,结果表明,主观意见平均得分(Mean Opinion Score,MOS)全部为优,Seg SNR和PESQ在-5d B环境下分别最高提高了13.9和1.46。综上,本文所提两种方法对语音中的瞬态噪声均有良好的抑制效果,显著降低了瞬态噪声的时域幅度值。通过实验,验证了本文所提算法对降低语音中瞬态噪声的有效性。
其他文献
本文针对高速永磁电动机铁心损耗大,受磁场多因素影响导致铁耗计算误差较大的问题,以一台150k W、30000r/min的高速永磁同步电动机(HSPMSM)为例,提出考虑磁场多因素影响的变系数铁耗计算模型,并在此基础上进行铁心损耗的计算,分析影响铁耗的因素,研究降低铁耗的方法。首先,基于SPWM变频器供电,建立电动机的场路耦合分析模型,对样机进行瞬态磁场分析。在经典铁耗计算模型的基础上考虑高次谐波、
目的 探讨脑积水性脑室-腹腔分流术(ventriculo-peritoneal shunt,VPS)诱发颅内感染(intracranial infection,ICI)的病原菌构成及相关危险因素。方法 选取2019年7月至2021年1月在广西壮族自治区江滨医院行VPS后发生ICI的35例脑积水患者为感染组,未发生ICI的65例患者为未感染组。分析术后感染的病原菌构成,并采用多因素Logistic回
调频连续波(FMCW)激光测距技术凭借其非接触、高精度、自动化程度高等优点,在航空航天、自动驾驶、无人机等领域中有广泛的应用前景。随着长距离、大空间、大尺寸等测量需求的提高,导致在激光测距中产生的差拍信号频率越来越高,使得信号采样率增加,从而产生采样电路设计要求高、后续数据存储及处理量大、频率分辨率降低等问题。针对上述问题,本文研究了基于压缩采样的差拍信号频率估计方法,根据压缩采样原理构建基于低速
声音事件检测与定位(Sound Event Detection and Localization,SEDL)的目的是识别一段音频中所有声音的标签、它们各自的起始偏移时间以及相应的方位角和俯仰角的到达方向。这一技术可以有效实现通过空间维度自动描述人类活动并帮助机器更无缝地与世界交互。SEDL可以成为辅助听力系统、场景信息可视化系统、沉浸式交互媒体的一个重要模块。在音频事件检测与定位过程中,同一时刻内
<正>肝细胞癌(HCC)是原发性肝癌最常见的病理类型,占总病例数85%左右,其致死率高居全球第三位[1],HCC发病率受肝炎病毒的慢性感染(乙型和丙型肝炎病毒最为突出)、酒精成瘾、机体代谢障碍及接触黄曲霉毒素等危险因素影响[2]。手术是早期肝癌最优治疗方案,但HCC起病隐匿,大多数肝癌患者确诊时已达肿瘤中晚期,手术切除和移植合格率低。无手术指征者可采用局部消融、肝动脉栓塞灌注化疗、放射及分子靶向等
文本是人类文明的基石,广泛出现在自然场景图像中,它所表达的丰富而精确的语义信息,有助于人类理解和分析周围的场景内容。因此,文本检测与识别技术在计算机视觉领域备受欢迎,为实时翻译技术、视障人士导航技术等应用系统的实现开拓了新的发展道路。论文主要从文本检测与文本识别两个阶段对自然场景中的文本图像展开研究,研究内容如下:在文本检测阶段,本文选取了高效精确的EAST文本检测模型进行深入研究,通过研究EAS
随着电力电子技术和电源技术的不断进步,对于特定场合的需求,电源设备的性能以及效率也有着更为特殊的要求。在航天、船舶等领域,将高频开关电源融入到电机设备中,构成的一体化同步发电系统也越来越受到重视。然而目前所用到的经典比例积分控制方法,不具备精确稳定输出的能力,不适合低压大电流的应用。鲁棒性、可靠性、功率密度等问题也是制约电源领域发展的原因。为提高低压大电流电源的综合性能,本文针对一体化同步发电系统
致泻大肠埃希氏菌O157:H7(STEC O157:H7)是大肠埃希氏菌中致病性最严重的一种食源性致病菌,主要存在于牛肉、牛奶、水果及其制品中,对身体健康造成很大危害,甚至引发死亡。食品中STEC O157:H7检测尤为重要。本文对国内外STEC O157:H7的检测标准进行比较,提出我国标准在样品前处理、快速筛选方法的应用等方面需要加强,以便为该菌快速准确检测提供帮助,实现与国际标准化体系建设接
本文从4极48槽的18.5k W的同步磁阻电动机(Syn RM)电磁设计开始,以降低转矩脉动为目的逐步展开电机整体设计,进行转子磁障端部改进设计,随后通过在转子磁障中添加永磁体变化为永磁辅助同步磁阻电动机(PMa Syn RM),分析永磁体添加位置与转子磁障偏转对电动机性能的影响,深入研究与分析PMa Syn RM的由来与优化设计方法。首先,根据Syn RM的性能要求对Syn RM进行电磁设计,确
阿尔茨海默病是最常见的老人痴呆症。AD的早期表现一般为记忆力衰退,病情的逐渐发展会给老年人的身体状态带来严重的威胁,因此在AD早期阶段进行治疗和干预十分关键。核磁共振成像是目前比较常见的诊断方法,但由于人工影像诊断存在较大的主观性且耗时性,并且AD早期阶段的影像特征并不明显,所以人工无法对其进行准确识别。如今,深度学习被广泛应用于医学影像中,它可以帮助医生进行智能辅助诊断和分析,提高了对疾病诊断的