【摘 要】
:
脉冲响应(IR)是一个传递函数,描述声音从源点传播到接收点的关系。由于真实环境不可枚举,录制真实IR成本高,故IR生成器的主要任务是人工合成房间脉冲响应,具有低成本,快速,大量的优势。IR生成器可应用于语音研究任务的数据扩充,室内声学模拟等。目前,主流IR生成器基于几何模型,但其假设声音以射线形式传播,忽略了声音的波动特性,并且难以模拟复杂声学环境,导致模拟与真实之间始终存在差距。本文基于统计室内
论文部分内容阅读
脉冲响应(IR)是一个传递函数,描述声音从源点传播到接收点的关系。由于真实环境不可枚举,录制真实IR成本高,故IR生成器的主要任务是人工合成房间脉冲响应,具有低成本,快速,大量的优势。IR生成器可应用于语音研究任务的数据扩充,室内声学模拟等。目前,主流IR生成器基于几何模型,但其假设声音以射线形式传播,忽略了声音的波动特性,并且难以模拟复杂声学环境,导致模拟与真实之间始终存在差距。本文基于统计室内声学,提出一种浅层的、稳定的、健壮的,基于变分自动编码器(VAE)的RIR生成器。相较几何模型,RIR-VAE生成器无需预设房间尺寸,环境参数等,可以实现随机合成RIR。为提升RIR-VAE合成可控性,将无监督模型扩展到RIR-CAVE,将RIR描述为一组声学参数(、DRR、EDT、CTE),将其作为条件控制IR合成,并对比声学参数真值与合成IR的声学参数标签,验证了条件的有效性,RIR-CAVE与RIR-VAE形成互补。本文通过将合成IR应用于远场关键词识别任务、远场语音识别任务,对数据集进行数据扩充,验证合成IR的质量。理论上,扩充房间IR即丰富了远场信息,可以提升模型的识别能力。在基于Libri Speech数据集的远场语音识别实验中,VAE合成IR在测试集准确率为86.4%,词错误率为13.22,相较几何模型测试集准确率79.6%,词错误率21.74表现更佳。实验显示,VAE相较GAS对真实房间环境建模更真实,健壮性更强,但在合成IR质量上有待提升,通过VAE对远场语音识别模型进行数据扩充能有效提高模型对真实环境的泛化能力。本文将基于条件变分自动编码器的RIR生成器应用于智能家居设备的远场语音识别模型优化问题,实现完整应用流程。当智能家居设备处于陌生环境时,其远场语音识别模型可能不适用于当前房间的声学环境,故进行模型优化,扩充当前环境远场信息。本文基于CNN模型对远场音频进行多个声学参数的盲估计,并通过SMOTE算法对声学参数标签进行数据扩充,再使用本文RIRCVAE生成器合成该房间的IR,对智能家居设备的远场语音识别模型进行优化,使其适应当前房间的声学环境。
其他文献
上市公司巨额商誉的存在给资本市场带来了金融风险。防范化解超额商誉带来的资本市场风险,对维护金融市场稳定和人民财产安全尤为重要。现有研究大多聚焦于单一大股东的治理效应,较少关注多个大股东对并购超额商誉的影响。本文基于并购场景,研究多个大股东与并购超额商誉的关系,并从具有中国特色的并购业绩补偿承诺制度这一新的视角出发,进一步探究并购业绩承诺机制对多个大股东与超额商誉的关系的影响。本文基于委托代理理论,
在我国城市化进入后半场的当下,商业步行街的发展策略已从“速度+数量”转为“存量+质量”,且为了刺激后疫情时代消费,在一系列提振消费、发展商业步行街的政策相继出台后,商业步行街在经历没落后重新成为城市商业的中心。对于寒地城市而言,商业步行街在发挥传统商业中心空间职能的同时,还承载着大量居民的户外活动,是不利气候下城市活力的聚集地。如何在新时代的背景下,从气候、建筑空间、使用者三位一体的角度出发,全方
抗美援朝战争是新中国成立之后中国人民为了保卫家园、呼吁世界和平、反抗霸权侵略,所打出的正义之战。这一战役不仅展现出了新中国的国威和人民军队的军威,更打破了美国军队不可战胜的神话。在建国初期增加了国家的认同感,同时提高中华儿女的自信心和自豪感。抗美援朝伟大的胜利是中国人民站起来后屹立于东方的宣言书,对近代的中国乃至世界都产生了深远的影响。在纪念重大历史事件以及传承民族精神上,大众媒体因其自身的特性发
曲面论是古典微分几何的一个重要组成部分.Biconservative曲面与双调和曲面密切相关,是古典微分几何中一类重要的曲面,近年来备受学者关注.本文考虑三维空间形式中一类满足方程A▽H=kH▽H的曲面,其中A为形状算子,H为平均曲率,k为任意常数.这类曲面被称为广义Biconservative曲面.特别地,当k=-1时,广义Biconservative曲面即为Biconservative曲面.显
随着工业化的发展,传统能源的消耗被大大提升,然而传统的能源例如石油等属于不可再生能源。当前以石油消耗为主的国家都面临着能源减少的威胁。氢气是一种无污染,燃耗热值高的新能源,但是由于氢气具有密度低的特点,存储氢气成为制约氢能源利用的首要因素。气体水合物储氢技术具有成本低,安全性高的优点,在氢气的储存和运输领域扮演着重要角色。目前,氢气水合物已经成为能源环境领域的研究热点之一。利用气体水合物储氢是一种
近年来科技飞速发展,越来越多的研究者开始关注上转换发光材料的制备及性质。其独特的反斯托克斯位移发光机制使其具有独特的优点:发射光谱带宽较宽、性状稳定、发光稳定及红外激发,同时其自身还具有低生物毒性和荧光背景较弱等优势,故其常被用于防伪识别、生物检测分析及医疗等领域。本文分别以NaErF4和LiLu(MoO4)2为基质材料,使用溶剂热法制备Tm3+、Yb3+双掺的NaErF4,后经Si O2包裹修饰
目的:腕管综合征是最常见的神经压迫疾病,对其研究也已经相当完善,当前对腕管综合征危险因素研究较多,导致腕管综合征的危险因素也较多,对于腕管综合征的治疗方式也多采用保守或者手术治疗的方式,治疗的效果也各有利弊,本文章主要探究影响腕管综合征手术治疗的预后影响因素,以便针对腕管综合征患者的治疗采用更合理的治疗方案。方法:本研究收集了吉大一院手足外科在2019年至2021年诊治的178例腕管综合征患者,经
在空中飞行的预警机不仅可以及时发现来袭的敌方目标,还能引导己方飞机相互配合高效作战,是现代化信息战争中的千里眼和指挥官。预警机上装载的雷达作为预警机获取战场情报的主要来源,是打好信息战的关键所在。随着战争的形势愈加严峻,预警机雷达系统的综合效能急需提升,与此同时,雷达研制经费高昂、研制周期较长成为一大难题。现有条件下,预警机雷达系统的效能提升工作不仅关系到经济利益,还关系到国家战略决策,研究如何以
特殊的磁性材料在科技发展中一直扮演着非常重要的角色,但由于这些磁性材料中电子间存在着强关联效应,我们很难从理论上解释它们所表现出的某些性质。然而规范/引力对偶理论的出现为研究这些强耦合的量子体系提供了新的方法。所以本文将介绍此对偶理论在强关联铁磁和反铁磁体系中的相关应用。目前,在经典麦克斯韦框架下已经成功地建立了全息铁磁模型,随着人们对非线性电动力学下铁磁模型的深入探究,发现这种非线性电动力学理论
随着社交平台的发展,人们越来越愿意在网络上针对一些事物发表自己的观点、想法和情感。分析这些数据中的情感倾向,对政府和商业组织等具有重要意义。同时网络速度的发展,人们越来越愿意发布除文本外的其他信息,例如图像,视频,音频等,多模态数据已经构成了社交平台中内容的主要部分。本文针对多模态数据中的文本和图片模态的情感信息进行了分析和研究,主要包括了针对句子级的图文多模态情感分析任务、属性级的图文多模态情感