单声道语音增强关键技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:jasmineonbridges
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强(Speech Enhancement,SE)技术在人类生活的复杂声学环境中扮演着至关重要的角色。无论是高质量的通信需求,还是优质助听设备的研发,以及人机交互的常态化都使得语音增强技术具有重要的研究意义和实用价值。本论文主要工作如下:1.提出一种基于多窗谱估计和几何谱减的单声道语音增强方法。针对传统语音增强算法限制条件多、功率谱估计不准确,导致增强语音信号残存较多噪声或者产生非线性失真的问题,提出一种基于多窗谱估计和几何谱减的单声道语音增强方法:利用多窗谱估算带噪语音功率谱,改进的最小控制迭代平均方法估计噪声功率谱,最后通过几何谱减的方式计算得到增强语音信号。实验结果显示,该方法减少了增强语音中的残留噪声,缓解了语音失真程度,有效提高了语音质量。尤其是非稳态噪声环境,以PESQ测评指标为例,与谱减法、最小均方误差估计法和几何谱减法相比,在信噪比为-5dB、0dB和5dB条件下的平均值分别相对提升12.6%、16.8%和5.1%。2.提出一种基于动态语音和动态噪声联合感知训练语音增强方法。论文基于特征映射的深度神经网络(Deep Neural Networks,DNN)模型框架,提出动态语音感知训练方法,并与动态噪声感知训练相结合,进一步提出基于动态语音和动态噪声联合感知训练语音增强方法。提取带噪语音中心帧的动态语音特征和动态噪声特征,并融合包含上下文信息的带噪语音特征,作为深度神经网络模型训练的输入向量,即同时给予训练模型语音场景和噪声场景双重环境暗示,使模型能够更好的学习带噪语音信号、噪声信号和纯净语音信号三者之间复杂的非线性关系,实现更准确的特征映射。该方法解决了增强语音失真程度大、模型噪声鲁棒性差的问题,减少了残存噪声,与参考算法相比,计算复杂度低。实验结果表明,在以上三种信噪比条件下,与原始带噪语音,以及基线系统和参考算法的增强结果相比,STOI的平均值分别相对提升11.4%、4.2%和2.8%,在改善语音质量的同时也提高了可懂度。
其他文献
<正> 一个城市的不同建筑形象与环境交织成城市的总体印象。大连市的历史不足百年,历经两个帝国主义(日、俄)的占领,三个不同时期的建筑思潮(即俄罗斯风味的折衷主义反映的19
文章试图通过对景观生态学的一些基本概念的认识阐明景观生态学与城市规划设计的学科交叉是可能而且必要的。
通过对周城民居的实地调查与分析,该文从“尚白、夸饰、混融、实用”等四个方面探寻了白族民居的建筑文化特征。
元代,画家重画意,重笔墨造境,重自我表达,汉文人多身处低层,因不同际遇选择居隐,以笔墨书写林泉之意。元明更替时期的王蒙对于出仕有一股热忱,时局变动,或仕或隐,“卧白云,望
为了确定广东生平原地区河网水文分析计算的准确性,增强区域水资源管理的针对性,降低干旱、洪涝等自然灾害对平原地区正常经济生产及社会生活的影响,文章从水分层面出发,结合
随着科学技术的高速发展,计算机(Computer)、通信(Communication)和消费类电子产品(Consumer Electronics)即3C产品迅速涌入校园。但高校学生作为处于过渡阶段的一类消费群体
制约企业发展的重要因素之一是员工满意度问题,而如何提高员工满意度成了提高工作绩效的关键因素。通过对得力集团有限公司生产车间员工的问卷调查,将工作满意度分为五个维度
<正> (2)空间序列的变化 戏台在空间轴线上的位次由禹王宫的“前殿→戏台→后殴”转变为齐安公所的“戏台→看厅(过厅)→大殿”。(图3、9)两公所戏台前的天井也比禹王宫的要
<正>美国宾夕法尼亚州纽卡斯尔市2014年3月17日讯:Nordson XALOY公司今日宣布推出一种创新型加热系统,使用高度节能的加热涂层取代传统的加热圈,从而确保了挤出熔体管和适配
本文主要聚焦于政府决策与我国新型智库发展之间的关系。随着决策环境的日益复杂化,政府决策对于新型智库的需求日益增大,对智库的要求也越来越高。在这种背景下,智库只有增