【摘 要】
:
在日常通讯交流和视频会议等应用中,声回声是一个常见的问题,它由传声器和扬声器之间的耦合产生,能够影响到语音可懂度和通话质量。人工智能技术的发展使一些类似智能音箱这样的智能语音交互设备逐渐普及。这类设备设计紧凑,扬声器和传声器距离近,声回声问题更为明显,且由于其一般使用小尺寸扬声器,低频非线性失真往往较高,进一步提升了回声处理的难度。这类设备的语音识别率因回声存在而显著下降,严重影响了用户体验。本论
论文部分内容阅读
在日常通讯交流和视频会议等应用中,声回声是一个常见的问题,它由传声器和扬声器之间的耦合产生,能够影响到语音可懂度和通话质量。人工智能技术的发展使一些类似智能音箱这样的智能语音交互设备逐渐普及。这类设备设计紧凑,扬声器和传声器距离近,声回声问题更为明显,且由于其一般使用小尺寸扬声器,低频非线性失真往往较高,进一步提升了回声处理的难度。这类设备的语音识别率因回声存在而显著下降,严重影响了用户体验。本论文主要关注解决上述问题的声回声抵消算法,重点研究适用于声回声抵消系统的自适应滤波算法和对残留回声的后处理。论文分析了声回声抵消系统的一般信号模型,总结了常用的时域、频域自适应滤波算法。在此基础上,分析了频域卡尔曼滤波算法的稳态解,发现了在滤波器阶数不足的情况下,其稳态解的等效时域形式与维纳滤波所得最优解不同,即在此情况下该算法的解是有偏的。针对这个问题,提出了一种的频域卡尔曼滤波改进算法。通过改进频域卡尔曼滤波的系数更新式,使算法能够在滤波器阶数不足的情况下有效收敛到最优解。这种改进方法额外增加的计算量较小,确保了其工程上的可行性。通过实录房间冲激响应和语音数据,评测了算法的滤波器系数失调,验证了算法在滤波器阶数不足情况下明显优于普通的频域卡尔曼滤波算法。在扬声器单元较小且扬声器和传声器距离较近的时候,传声器接收到的回声非线性成分较多,单纯依靠基于线性模型的自适应滤波很难有效抑制所有回声,此时需要有效的后处理进一步抑制残留回声。论文讨论了一种结合深度语音生成模型和非负矩阵分解的后处理方法。在变分自编码器模型中引入了时间卷积网络,减少了模型推理时间。客观指标对比表明,该方法的效果优于常用的基于信号回声比估计的回声抵消后处理方法,实用前景较强。最后,论文对全文内容进行了总结,对回声抵消还未解决的问题和未来工作方向进行了讨论。
其他文献
玉米赤霉烯酮(ZEA)是一种非甾体雌激素霉菌毒素,通过聚酮化合物途径由多种常见于饲料和食品中的镰刀菌真菌生物合成,它除了对繁殖性能产生影响外,ZEA还具有肝肾毒性,血液毒性
近年来,中国老龄人口在总人口中的比例迅速攀升,人口老龄化程度不断加深,有效解决人口老龄化问题已经成为一项重大民生工程。伴随着经济社会的发展,老年人多样化、多层次的养老服务需求不断上升,对晚年生活的品质性、享受性要求不断提高。因此,相对于具有“兜底”保障功能的公办养老机构,由社会资本建立的民营养老服务企业已成为我国养老服务市场中不可或缺的重要组成部分。然而,我国的民营养老服务企业发展起步晚,当前民营
医学图像能提供重要的临床诊断信息,大量病情的确诊都依赖于对医学图像的识别。近年来,因设备性能的不断提升产生了大量的医学图像数据,提供了更加丰富的特征信息,如何精确有效的从大量医学图像中识别出有用信息对于病情诊断具有重要的意义。区域卷积神经网络(Regional convolution neural network,R-CNN)在医学图像识别中应用很广泛,因此,本文围绕肺部CT医学图像数据为对象,结
近年来中国的经济迅猛发展,随之而来的是农业现代化程度越来越高。畜牧业发展也到达了一个比较高的水平。其中,生猪养殖占据了比较大的比重,在农业经济中占据着较大的份额。
中国作为农业大国,农村土地占全国土地面积90%以上,同时农业也属于我国的第一产业,因此农业的发展程度直接关系着人民生活经济水平。作为人口大国,农业的产量自然就成为了国民经济水平至关重要的部分。农业也是作为人类发展最基本的资源,是人民赖以生存的基础。但是农业产业一直发展缓慢,这与农业的产量和自然环境是分不开的,自然条件的好坏直接影响到农业产出,从而影响到农民的经济收入水平。对于农业产业来说,自然灾害
杂环化学是现代有机化学的重要领域,杂环化合物在生物化学、药物化学和应用化学等领域有着广泛的应用。近年来,β-烯胺酯已被广泛用作构建各种含氮杂环化合物,是合成含氮杂环化合物十分重要合成子。文献已经报道了许多有关β-烯胺酯用于合成杂环化合物的许多方法,但对于含有杂原子取代的β-烯胺酯参与的化学反应还有待进一步拓展。本文研究了含硫烯胺酯在构建含氮杂环化合物中的应用,成功地合成了一系列具有潜在生物活性的含
位于吉林省集安市的高句丽王城、王陵及贵族墓葬为世界文化遗产单位,其中贵族墓葬中目前共发现高句丽时期的壁画墓为38座,其壁画内容丰富,表现形式多样。高句丽壁画长期保存
随着多媒体技术的快速发展,视频、图像、音频等数字多媒体技术应用越来越广泛,但是在传播过程中容易受到破坏。数字水印技术是版权保护的一种有效手段,受到相关领域学者的广泛关注和深入研究。数字水印技术从提出到现在已经取得了显著地成果,然而数字水印技术涉及的内容多、范围广,相关算法并不完善,仍有改进提升的空间。本文结合现有数字水印技术的研究基础,通过分析Contourlet变换、DCT变换、Schur分解技
近几年,中国经济增速放缓,提出供给侧结构性改革,更加强调发展的质量,重视经济发展对环境的影响,提出建设“美丽中国”的目标,同时也主动承担国际环境责任,如签署《巴黎协定》并积极履行承诺。事实上,中国一直以来就存在自然资源总量大、人均少、开发难度大、利用率低、浪费严重等问题,这必然会影响中国经济的持续发展,特别是以自然资源为主要生产原料的企业,其面临的压力更大:一方面政府和社会各界更加重视对自然环境的