【摘 要】
:
随着智能家居的迅速发展,基于IP网络的远程人机语音交互技术成为了行业热点,这对通信语音质量提出了更高的要求。IP网络的语音通信(voice over Internet protocol,Vo IP)经常存在丢包和带宽限制等影响语音质量的问题,这严重影响了智能语音交互系统的性能。因此,研究Vo IP通信中的语音补偿算法并改善语音质量具有实际应用价值。Opus是一种实时音频编解码器,因其功能多样性而被
论文部分内容阅读
随着智能家居的迅速发展,基于IP网络的远程人机语音交互技术成为了行业热点,这对通信语音质量提出了更高的要求。IP网络的语音通信(voice over Internet protocol,Vo IP)经常存在丢包和带宽限制等影响语音质量的问题,这严重影响了智能语音交互系统的性能。因此,研究Vo IP通信中的语音补偿算法并改善语音质量具有实际应用价值。Opus是一种实时音频编解码器,因其功能多样性而被广泛应用于Vo IP通信。Opus在解码端提供了基于自回归模型的语音重构来缓解IP传输网络中的丢包问题,这虽能在一定程度上提升语音质量,但在连续丢帧情况下性能不佳,同时其语音补偿方案未包括窄带语音的带宽扩展。基于此,本文在Opus语音补偿方案基础上提出两种基于深度学习的语音补偿算法,即丢包补偿和带宽扩展。其中,丢包补偿算法采用深度学习模型对丢失帧的线谱频率(LSF)进行预测,所获得的预测值结合其他语音参数来实现丢失帧的补偿;带宽扩展算法则采用生成式对抗网络(Generative Adversarial Networks,GAN)对窄带语音的高频部分进行估计。为了评估算法在实际应用中的补偿性能,本文设计了一种包含上述丢包补偿和带宽扩展功能的Opus编解码方案(Opus_NN)并将其用于实验验证。采用4种常用的语音质量客观评价指标分别从丢包补偿和带宽扩展两方面设置对比性实验进行分析。对于丢包补偿,采用5种不同丢包率的语音在4种信噪比条件下评估Opus和Opus_NN的丢包补偿子系统的性能;对于带宽扩展,在干净环境下采用5种不同带宽的语音分别测试深度神经网络(Deep Neural Networks,DNN)和GAN的带宽扩展性能。为了评估所提系统对语音识别性能的影响,采用干净环境下5种不同丢包率的语音和10%丢包率的不同带宽的语音分别测试Opus和Opus_NN的补偿性能。实验结果表明,本文所提的语音补偿算法在几乎不影响Opus解码效率的情况下,能有效缓解Opus连续丢帧导致的语音质量下降问题,且能利用更有效的预测模型实现语音的带宽扩展。
其他文献
本文基于利率市场化改革的宏观背景,梳理了利率市场化影响保险公司投资效率相关问题的国内外文献,分析了利率市场化影响保险公司投资效率的现状及理论机理。利用后金融危机时代2008-2019时间段内保险公司的微观数据,借助多元回归分析方法,对保险公司受利率市场化影响的程度进行了实证研究。本文的研究结果表明:(1)我国的利率市场化改革正向纵深处推进,虽然与完全利率市场化还存在一定的距离,但近几年来利率市场化
中国的海外投资是政府主导型的海外投资,在此过程中中国的国有企业扮演了重要的角色,是中国海外投资的主力军和国家政策的执行者。由于国有企业是由中国政府直接投资或控股的,所以国有企业在海外投资中因腐败行为导致的损失不但是国有企业经济利益的损失,也是中国政府经济和战略利益的损失。近年来伴随着中国国有企业腐败资产跨境转移现象普遍增多,如何对国有企业在海外投资中的腐败资产进行追回就成为迫切需要解决的问题。中国
棚户区是当代中国经济改革开放发展过程中的一个阶段性独特现象。棚户区改造既是为了拉动城市建设和经济发展,又被作为国家重大的社会性和基础性的民生工程。2015年至2018年,在国家相关部委大力倡导下,货币化安置逐渐成为各地方政府开展改造的主要安置模式。相比实物安置模式,货币化安置政策有力地带动了商品房销售,但同时也客观上促进了城市房价普遍上涨,对地方政府隐性债务和居民部门杠杆率产生了负面影响。本文首先
随着互联网技术的持续发展,网络数据内容激增导致信息过载问题严重,给人们有效获取自己所需的信息带来困难。搜索引擎和推荐系统成为解决信息过载的两大有效手段。传统推荐系统存在着可解释性差、推荐内容单一、输入数据稀疏等问题。知识图谱是近年来新兴的研究热点之一。知识图谱有着强大的语义处理能力,是一种新型知识组织与检索技术,其语义网络信息的特点可为各领域带来新颖的研究方向,受到各领域的高度重视。推荐系统与知识
近年来,由于贿赂案件数量高发,我国对行贿罪的惩处越来越重视,立法上对行贿罪构成要件、罪刑配置的规定由粗疏到细致。然而,由于贿赂犯罪查处难度大以及“重受贿轻行贿”传统司法理念的影响,司法实践中对行贿犯罪的处罚一直偏轻。党“十八大”以来,国家重拳惩治腐败,2015年11月生效的《刑法修正案(九)》对行贿罪增设罚金刑、严格限缩从宽幅度,体现了对行贿罪从严打击的决心。为考察当前司法实践中行贿罪处罚的实然状
近年来,随着消费电子的高速发展,越来越多的厂商关注起了3D成像技术。特别是苹果公司的iphone X推出的智能3D人脸识别技术掀起了各大厂商对3D成像技术的研究热潮。相位式飞行时间(Time-Of-Flight,TOF)成像技术是一种比较受人关注的新兴3D成像技术。目前在自动驾驶,机器人视觉,虚拟现实,人工智能,3D建模等领域都有着广泛的应用,因其高分辨率,较高的精度,较快的成像速度极大的促进了相
人工耳蜗(Cochlear implant,CI)是一种能够帮助重度听力障碍患者重新恢复部分听觉感知的电子医学装置。对于正常听力者而言,能够利用双耳时间差和双耳强度差信息去辨别空间中声源的位置。然而双侧耳蜗植入者不能充分的感知ITDs信息,他们的空间听觉能力也因此受到限制。一个很重要的原因是目前大多数CI处理策略是基于对语音信号的时域包络进行信息提取的方式,摒弃了原始语音信号的时域精细结构(Tem
早期的推荐系统依赖特征工程,通过挖掘用户属性特征和物品属性特征的相关关系产生推荐,但是属性特征需要用户主动提供并且内容驳杂,具有多元异构、特征稀疏的特点,极大地限制了推荐系统的应用。相比于复杂的属性特征,用户和物品的交互行为属于用户的隐性反馈,是最容易获得并且能正面反映用户偏好的特征。将物品按照用户动作发生的时间排序,称为用户行为序列,该序列不仅包含用户的兴趣偏好而且具有连续稠密、结构简单的特点,
视频是当今社交媒体中最常见的内容之一,近年来随着短视频平台的兴起,日常视频数据的生成量呈现出爆炸式增长的趋势,这给计算机视觉系统提出了更高的信息处理要求。而对于人类视觉系统而言,实时高效地处理视觉信息是其与生俱来的能力,原因在于该系统存在一种注意机制,这种机制可以从人眼获取的大量视觉信息中筛选出最主要的一部分并将其分配给大脑优先处理,从而实现从视觉感知到理解的高速响应。视觉显著性预测则是通过计算机
短视频分享平台数据具有用户交互行为丰富、模态信息多样且全面的特点,但由于相同短视频的不同模态信息之间具有差异性,也即存在“语义鸿沟”(semantic gap)的问题,现有的推荐方法难以从短视频的模态层级进行用户兴趣建模,衡量短视频模态信息之间的差异性对用户偏好的影响。因此,本文提出结合短视频数据多模态的特点和图卷积网络(Graph Convolutional Network,GCN)的模型框架设