【摘 要】
:
声纹识别技术在司法鉴定、军事安全、金融防欺诈等多个领域得到应用,但是在实际应用环境中,各种各样影响语音质量的背景噪声,使得实际工程应用中的声纹识别系统效果达不到理想要求,成为限制声纹识别技术发展的重要因素。因此,论文围绕声纹识别技术在噪声环境下的识别率提升问题开展研究工作。受到基于神经网络的特征映射方法在语音增强以及鲁棒性语音识别领域相关研究的启发,论文将基于神经网络的特征映射方法应用在鲁棒性声纹
论文部分内容阅读
声纹识别技术在司法鉴定、军事安全、金融防欺诈等多个领域得到应用,但是在实际应用环境中,各种各样影响语音质量的背景噪声,使得实际工程应用中的声纹识别系统效果达不到理想要求,成为限制声纹识别技术发展的重要因素。因此,论文围绕声纹识别技术在噪声环境下的识别率提升问题开展研究工作。受到基于神经网络的特征映射方法在语音增强以及鲁棒性语音识别领域相关研究的启发,论文将基于神经网络的特征映射方法应用在鲁棒性声纹识别系统中。论文使用人工构造的平行语料数据集以最小均方误差为目标函数训练深层神经网络(Deep Neural Network,DNN),使其学习含噪语音对数功率谱特征和干净语音Fbanks特征之间的映射关系。训练好的DNN模型作为一个特征提取器被应用于声纹识别系统的特征提取过程。实验结果表明,在信噪比较低的条件下DNN输出特征性能高于传统鲁棒性特征,而在信噪比较高的时候DNN输出特征的性能不如传统鲁棒性特征,受最小均方误差目标函数的影响,DNN输出的特征无法在各个信噪比下都获得优于传统鲁棒性特征的性能。为了解决最小均方误差目标函数引起的问题,将DNN替换为Wasserstein生成对抗网络(Wasserstein Generative Adversarial Network,WGAN)。WGAN通过Wasserstein距离去衡量生成数据分布和真实数据分布之间的距离,使得神经网络可以更好的学习特征之间的映射关系,实验表明,在0d B、5d B、10d B、15d B、20d B的测试条件下,与传统鲁棒性特征相比,以GMM-UBM作为识别模型,FMWGAN(Feature Mapping WGAN)输出的特征(FMWGAN-MFCC)在各个信噪比下的识别率分别提高了13%、7.3%、6.7%、6.8%、6.3%;以身份向量(i-vector)作为识别模型,在各个信噪比下的识别率分别提高了5.5%、1.9%、1%、1.2%、0.6%。论文设计了一款声纹识别程序,将论文训练得到的神经网络模型应用到声纹识别程序的实现中,程序开发完成后在实际环境中对程序进行了相应的性能评估和测试。从仿真实验和实际测试来看,基于FMWGAN-MFCC的声纹识别系统相较于基于传统鲁棒性特征的声纹识别系统在噪声环境下具有更高的识别率,可以一定程度上解决噪声环境下声纹识别系统识别率下降的问题。
其他文献
边缘计算拥有低时延和高安全等诸多优点,边缘计算可以看作“微云”,相比云来说其本身的计算资源、存储资源都更受到局限。在边缘设备上会有多种异构终端接入、异构数据存储且多种应用运行其上,边缘设备提供安全的支持系统是边缘设备安全的基础。Docker是基于“沙箱机制”的一种轻量级容器引擎,将底层文件、镜像和应用程序等统一打包的虚拟化技术其具有统一的标准化打包流程、强大的可移植性和隔离各个应用的安全性等优点,
随着人机交互技术的不断发展,Web应用服务性能与用户体验已经成为衡量Web应用运行质量的重要因素。用户体验评价方面,除了渲染时延这一常规指标以外,因用户因体验不佳而产生的异常行为也是重要的评价参考,而Web应用服务性能评价指标则通常包括云端服务响应请求的平均速率、稳定程度以及渲染端解析服务器响应资源的效率。用户在访问Web应用时产生的用户行为与Web应用服务性能之间的关系密不可分。例如:当请求服务
调制解调是信号检测和信号解调之间的关键技术,在非合作通信中起着至关重要的作用。调制识别技术在民用和军事领域都应用广泛,怎样在实际通信传输过程中,实现对接收信号调制方式的准确识别,是目前在调制识别技术当中迫切需要解决的难题。本文针对传统调制识别方法中所存在泛化能力弱、鲁棒性差等缺点,将深度学习应用到调制识别领域,并选用了模型更小的轻量级神经网络作为识别模型,提升了准确率的同时极大地减少了计算量,本文
石油是维持现代社会正常运转的重要能源之一,石油开采过程中一旦发生泄露,将会造成严重的生态灾害和巨大的资源损失。近年来视频监控技术在油田安全巡检中引起广泛的关注,由于视频监控图像具有直观方便的特点,在石油安全巡检中引入计算机视觉技术进行在线监控,及时发现油田采油作业过程中可能出现的故障,可以节省人力资源的消耗并保障安全巡检的质量和效率。传统的漏油检测采用LDR(Low Dynamic Range I
近些年来,运动捕捉技术在多个领域获得了越来越广泛地应用。基于惯性测量的运动捕捉系统相较于其他运动捕捉设备,成本低廉、使用方便、稳定性强,具有很高的研究价值。本文基于惯性测量技术设计研究了一种价格低廉、实时性良好的人体运动捕捉系统。本文的主要研究工作具体如下:1.分析了人体姿态跟踪系统的具体需求,并根据使用需求给出了系统的整体设计框架,完成了系统的硬件选型与制作以及上位机的软件选取。2.对三种传感器
缺陷检测是常见且重要的工业场景,由于待检测产品及其缺陷的多样性,传统的机器学习算法在可复用性上表现不佳。卷积神经网络以其强适应性和转换简单等优点在缺陷检测领域得到了迅速而广泛的运用。然而,由于图像表面众多像素级的缺陷特征的提取非常困难,即使特征金字塔可以针对小缺陷特征进行提取,而不同尺度特征图耦合时会损失大部分微小缺陷的特征,使得大背景下微小缺陷检测存在困难,性能难以提升,成为缺陷检测领域研究的热
随着人们生活水平的提高,居民私家车的数量在最近几十年急速增长,这使得人们对于出行需求逐渐由公共交通转为更加快捷舒适的私家打车出行,但是有限的道路与能源资源却不能无限满足私家车数量与人们对打车需求量的增长。另一方面,随着打车出行人数的增加,传统的“一人一车”的服务方式运营效率非常低下,使得车辆座位利用率极低,但是使用频率却越来越高,越来越不能满足大多数人的出行需求。近几年兴起的“共享经济”使得合乘出
视频监控是安防及应急救援的重要组成部分,因其呈现方式直观、传递信息多元而广泛应用于各类场景之中。传统方法的视频监控主要存在三大问题,其一是缺少视频智能分析,在监控过程中需要依靠人工同时对多个摄像头所拍摄的监控画面进行较长时间的观察,而且仅能对监控内容给出主观的判断,使得工作效率较低。其二是缺乏灵活监控,大多数的摄像头采用固定安装的方式,易存在监控盲区,同时极易受限于光照的变化,在更为重要的低照度或
随着人们对视频业务使用的不断加,越来越多新的要求在实际生产被提出。移动视频设备、军用无源视频设备、监控设备等一系列应用场景要求视频编码系统具有码率尽可能的低,编码端尽可能的简单的特点。为了应对这些需求,分布式视频编码(Distributed Video Coding,DVC)应运而生。分布式视频编码是一种基于分布式信源编码(Distributed Source Cording,DCS)的编码方式,
国内宇航员登上月球等地外星球不会太过遥远,地外星球表面复杂的环境会让宇航员在地外星球的行动变得困难,降低宇航员的科研能力。因此,本文将设计出一套下肢柔性助力服,通过柔性助力服对宇航员下肢进行助力,解决宇航员在地外星球行动困难的问题。首先,进行人体下肢建模及下肢柔性助力服概念设计。分析人体生理结构和人体下肢关节活动特征,根据下肢行走步态特性确定下肢尺寸参数和运动范围,设计出各个关节的运动自由度。完成