融合声学特征和深度特征的语音文档分类

来源 :数据采集与处理 | 被引量 : 0次 | 上传用户:lllll15
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的语音文档分类系统通常是基于语音识别系统所转录的文本实现的,识别错误会严重影响到这类系统的性能。尽管将语音和识别文本融合可以一定程度上减轻识别错误的影响,但大多数融合都是在表示向量层面融合,没有充分利用语音声学和语义信息之间的互补性。本文提出融合声学特征和深度特征的神经网络语音文档分类,在神经网络训练中,首先采用训练好的声学模型为每个语音文档提取包含语义信息的深度特征,然后将语音文档的声学特征和深度特征通过门控机制逐帧进行融合,融合后的特征用于语音文档分类。在语音新闻播报语料集上进行实验,本文提出的系
其他文献
摘要:对采用真空中频感应炉熔炼出的CuAlMn形状记忆合金进行热锻、热轧和伴随中间退火的多道次冷拔加工后,制得直径为2 mm的线材。用普通热处理和循环热处理两种工艺对线材分别进行热处理,并对线材的组织和抗拉强度、超弹性、硬度进行了测试。结果表明:普通热处理时,随淬火温度的升高,晶粒尺寸由213 μm增加至547 μm,抗拉强度、维氏硬度分别由771 MPa、264降低至618 MPa、246,但会
近年来,随着人们对视听体验的要求不断提高,三维(空间)音频技术被广泛应用于娱乐影音等各领域,并取得显著进展。如何便捷地创造一个具有沉浸式空间听觉体验的环境是一直以来的研究热点。因此综述了主流三维声场重建的相关技术,并分析了其优缺点,主要讨论了三维声场的表达与维度、不同扬声器下的三维声场重建以及相应的混响均衡技术。最后,归纳了三维声场重建技术目前存在的问题,并展望未来发展的新方向。
摘要:鋁合金在激光-熔化极惰性气体保护(melt inert-gas,MIG)复合热源焊接过程中形成的气孔会引起应力集中、降低焊接接头的强度和塑性等问题,从而明显降低焊接接头的性能。采用激光-MIG复合热源焊接技术,对4 mm厚7N01P铝合金进行了对接焊接,分析了焊接工艺对焊接接头中气孔的影响。结果表明,采用复合热源焊接技术,在送丝速度为7.0、8.0、9.0 m/min,焊接速度为0.9、1.
摘要:针对铝合金滑板车导轨型材制造过程中出现的质量问题,采用平模设计对铝合金挤压过程中出现的形位尺寸、缩尾与粗晶环等重大生产风险点进行了分析,并提出了降低铸锭上机温度、优化挤压模具结构等相应的控制措施,形成了质量控制方案,最终制备出符合用户要求的铝合金滑板车导轨型材产品。  关键词:滑板车导轨型材;挤压;缩尾;粗晶环  中图分类号:TG 376 文献标志码:A  基金项目:广东省省级科技计划项目(
基于深度学习的骨导语音盲增强已经取得了较好的效果,但仍存在模型体积大、计算复杂度高等问题。为此提出一种融合卷积网络和残差长短时记忆网络的轻量级骨导语音增强深度学习模型,该模型在保持语音增强质量的前提下,能有效提升骨导语音盲增强的效率。该模型借助卷积网络参数量小、特征提取能力强等优点,在语谱图频率维度引入卷积结构,从而深入挖掘时频结构的细节和高低频信息间的关联关系以提取新型特征,并将此新型特征输入改进后的长短时记忆网络中,用于恢复高频成分信息并重构语音信号。通过在骨导语音数据库上实验,表明所提模型可以有效改
光学相干层析-血管内超声联合(Optical coherence tomography intravascular ultrasound,OCT-IVUS)成像技术能同时弥补光学相干涉成像的低成像深度与超声成像的低分辨率,能够较为全面地进行血管内的易损斑块识别,但受血管内超声(Intravascular ultrasound,IVUS)技术超声激发重复频率限制,OCT-IVUS成像难以在高帧率成像
文章提出水力资源开发需遵循的原则,重点对贺江干流和重要支流进行梯级规划,规划过程中综合考虑水资源的综合利用和生态环境保护的要求,经多次优化设计,制定了梯级开发方案,本轮规划期内贺江干流梯级规划为13级开发方案、大宁河干流梯级规划为8级开发方案、东安江干流梯级规划为5级开发方案。研究成果可以减小对生态环境的不利影响。
针对欠定盲源分离(Underdetermined blind source separation,UBSS)问题,采用基于密度的空间聚类(Density based spatial clustering of applications with noise,DBSCAN)算法估计聚类中心时易陷入局部最优,因此由聚类中心坐标构成的混合矩阵的精度降低,导致信号分离结果不理想。本文在DBSCAN基础上提出布谷鸟自适应搜索群优化算法(Cuckoo adaptive search swarm optimizatio
为了对环境声音进行更好的识别和分类,提出了基于多级残差网络(Multilevel residual network,Mul-EnvResNet)的环境声音分类方法。对声音事件进行时标和基频压扩之后,提取其梅尔频率倒谱系数(Mel-frequency cepstral coefficients,MFCCs),以及它们的差分作为特征参数送入MulEnvResNet对声音事件进行分类。实验数据集采用ESC-50,将Mul-EnvResNet模型与端到端的卷积神经网络(EnvNet)、基于注意力机制的循环神经网络
针对数字助听器中回声消除算法计算复杂度高的问题,提出了一种基于集员滤波(Set membership filtering,SMF)理论的变步长基于L0范数的改进比例归一化最小均方误差算法(L0-norm constrained improved proportional NLMS,L0-IPNLMS)算法。该算法将集员滤波的时变步长引入到L0-IPNLMS算法中,不仅提高了系统的收敛特性,而且充分利用了集员滤波理论的数据选择更新特性,在误差幅度有界的前提下进行滤波器系数的更新,减少了不必要的迭代次数,降低