基于DBLSTM-DCNN的骨导和气导语音转换

来源 :声学技术 | 被引量 : 0次 | 上传用户:DZLYSSY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为了解决人们在强噪声环境下,通过空气途径传递的语音信号会严重失真的问题,提出了一种基于深层双向长短期记忆-深度卷积神经网络(Deep Bidirectional Long and Short Term Memory-Deep Convolutional Neural Network,DBLSTM-DCNN)的骨导语音转气导语音的语音转换模型.该模型利用DBLSTM层收集和保存相邻连续帧的隐藏信息,再通过DCNN层来提取频域方面的特征信息,可以很好地解决由于骨导语音高频成份严重缺失导致的转换语音不够自然的问题.实验结果表明,该模型的语音质量感知评价(Perceptual Evaluation of Speech Quality,PESQ)、短时客观可懂度(Short-Time Objective Intelligibility,STOI)、对数谱距离(Log-spectral Distance,LSD)等客观评价指标均有良好的表现,证明了该模型在骨导语音转气导语音方面具有较好的转换效果.
其他文献
分析不同叶片角和布置角下导鱼栅的导鱼效果,获取最优的导鱼栅布置方式,为下行过鱼设施设计提供理论依据及参考.以鳙(Aristichthys nobilis)幼鱼为研究对象,通过设置导鱼栅布置角度(15°、30°、45°)和叶片角度(15°、30°、45°、90°),在室内开展模型实验,分析鳙从导鱼旁路下行(引导成功)和从导鱼栅叶片间隙下行(引导失败)的通过率,确定最优运行工况.结果表明:在所有工况下,实验鱼均出现了顶流现象,但顶流率均小于50%;导鱼栅布置角和叶片角同为30°时,辅助鱼类下行的成功率最高,达
齿轮箱是广泛应用的工程机械零部件,准确地模拟其辐射声场对后续的降噪优化设计有着重要作用.边界元方法非常适合分析此类无限域下的声辐射问题.但传统边界元方法有着计算效率低、内存占用高的缺点.该研究发展了宽频的快速多极子边界元方法,并运用该方法计算了齿轮箱在特定频率下的场点声压以及辐射声场.通过对比商用软件的分析结果,验证了所提快速边界元方法的准确性.此外,运用多核并行计算方法,对计算量较大的扫频分析进行加速计算,最终快速、准确地获取了齿轮箱辐射声场的扫频结果.
语音传输指数(Speech Transmission Index,STI)是被广泛使用的言语可懂度客观评价参量.尽管国际电工委员会(International Electrotechnical Commission,IEC)标准致力于提供一个确定的STI技术规范,但经过近年的使用发现,在自然声房间和厅堂的STI测量中,仍有一些可能带来较大误差的影响因素没有考虑.这使得按当前标准测得的不同房间的数据之间缺少可比性.结合近年的研究进展,对这些可能的影响因素做出分析并给出了解决方案,以促进STI方法在建筑声学领
从岛礁斜坡地形条件下的声信号衰减和地形阻断效应分析出发,重点针对水下声场分布规律及其对声传播造成的影响开展研究.利用水声模型理论,结合某礁实测地形以及水文数据,建立岛礁斜坡地形下的多途声信道模型,基于Bellhop与RAM声学仿真方法,对不同地形下的声线轨迹、声传播损失以及信号时延等声场特性进行仿真分析,得出岛礁斜坡地形下的声场分布特征.研究结果表明:(1)岛礁斜坡地形是影响其声传播模式的关键因素;(2)斜坡外缘浅海区域的目标不易被岛礁斜坡顶端的声呐所探测;(3)陡坡地形对浅海声源的声传播有利,当声源深度
针对语音情感识别中无法对关键的时空依赖关系进行建模,导致识别率低的问题,提出一种基于自身注意力(self-attention)时空特征的语音情感识别算法,利用双线性卷积神经网络、长短期记忆网络和多组注意力(multi-head attention)机制去自动学习语音信号的最佳时空表征.首先提取语音信号的对数梅尔(log-Mel)特征、一阶差分和二阶差分特征合成3D log-Mel特征集作为卷积神经网络的输入;然后综合考虑空间特征和时间依赖性关系,将双线性池化和双向长短期记忆网络的输出融合得到空间-时间特征
噪声敏感房间之间分户墙的隔声量是使用者和业主方最为关心的问题之一.为了研究影响隔墙隔声量的因素(例如墙体类型、总厚度、材料密度、是否有明显薄弱点等),本文通过对工程上几种常见的隔墙系统进行了各自分析,并归纳总结各自的优缺点、适用条件及隔声强化措施,为相关从业人员在工程中选择墙体时提供参考,实现声学效果、房间实用面积、施工工艺等方面均达到相对满意的结果.
分析了移相在宽带多普勒流剖面仪(Broadband Acoustic Doppler Current Profiler,BBADCP)中的误差表现,确定了 BBADCP使用移相方式的适用条件.从宽带编码信号特征出发,分析了移相造成的时域“错位”和频域频谱幅值不均匀衰减、功率谱密度分散现象,确定了影响阵列输出的变量分别为:中心频率、带宽、编码阶数、重复次数、相邻阵元时延;从波束指向和宽度、阵列输出信噪比损失、测频误差三个方面考虑,综合分析了移相波束形成在上述变量变化时的表现.仿真发现,增加中心频率与带宽的比
驾驶员语音增强质量的评价指标是保证语音增强算法性能的关键,而现有的语音增强质量评价方法不能准确地反映人对声音感知的主观性.针对上述问题,分析了言语可懂度指数对语音增强算法评价的适用性,并在某品牌汽车上进行实验.通过在汽车内建立均匀线性传声器阵列来对驾驶员语音进行信号采集,然后利用波束形成算法对阵列中不同传声器组合的语音信号进行增强,得到汽车在不同行驶速度时不同阵列组合的语音增强结果.使用信噪比和言语可懂度指数分别对实验得到的语音增强结果进行评价,结果表明言语可懂度指数更适合评价汽车内驾驶员的语音增强算法的
声呐图像的噪声背景抑制是提高水下目标检测能力的重要问题.针对声呐图像背景斑点噪声强、目标轮廓模糊、目标回波对比度低等问题,利用确定性目标回波信号与随机分布的干扰噪声之间的相关统计特性差异,采用基于最小均方差准则的阵列信号维纳滤波器,通过主动最小方差无畸变响应(Minimum Variance Distortionless Response,MVDR)波束形成和后置维纳滤波的两级处理,去除声呐随机噪声背景.试验数据的处理结果表明:在噪声干扰条件下,相比于常规波束形成(Common Beamforming,C
利用集群自主式水下航行器(Autonomous Underwater Vehicles,AUV)进行的水下协同作业的需求越来越多.对于水下集群作业来说,AUV的水下定位非常重要.目前,AUV通常采用声学定位的工作模式,利用长、短基线阵对水下目标的二维波达方向(Direction of Arrival,DOA)进行估计,但在小型AUV上,基阵的阵列尺寸等受载体体积和换能器尺寸的共同限制,多信源条件下DOA估计的精度不高.设计低功耗平台,采用双平行线阵及传播算子算法来对多源目标进行二维DOA估计,结合通信与声