【摘 要】
:
说话人识别就是能够让机器分辨出不同人的声音来,主要是以语音信号为研究对象,它由特征提取和模式识别两大部分组成;其中,如何高效地找到区别不同说话人之间的个性特征一直以
论文部分内容阅读
说话人识别就是能够让机器分辨出不同人的声音来,主要是以语音信号为研究对象,它由特征提取和模式识别两大部分组成;其中,如何高效地找到区别不同说话人之间的个性特征一直以来是需要攻克的难点。在没有噪声干扰条件下的说话人识别系统的正确率能够达到百分之九十五以上;但是在有噪声的影响下,系统识别的正确率就会受到很大的影响,如何提高有噪声干扰环境下的说话人识别的正确率也是一个重要的研究方向。本文是以Kaldi语音识别工具为平台进行的仿真实验,Kaldi由前微软公司研究院的Dan Povey博士与捷克的BUT大学联合开发的,用C++编写而成的一个开源工具包,便于根据不同的实验目的进行修改和扩展。论文先从介绍说话人识别的基本知识入手,接着又全面地介绍了传统说话人识别算法,以及目前主流的说话人识别技术i-vector,并且结合Kaldi语音识别工具对说话人识别系统的训练参数进行了优化。针对带噪条件下说话人识别率低的情况,本文采用深度学习领域的降噪自编码器和i-vector相结合的方法来提高识别率。我们知道噪声与语音信号之间有着相当复杂的关系,但在日常生活中声音主要受到加性噪声的影响,因此本文重点研究了高斯白噪声对系统稳定性的影响,先后设置了信噪比为0分贝、5分贝、10分贝、15分贝、20分贝的带噪语音信号,用降噪自编码器对信号中的噪声进行抑制,保留说话人的个性特征,进而提高i-vector的稳健说话人识别系统的性能。实验结果表明,特别是在低信噪比条件下系统的识别率较低,但在去噪后i-vector的识别率明显得到提升。
其他文献
帧间预测是高效视频编码标准H.264/AVC、AVS等中的重要技术,通过利用视频序列中相邻帧之间的数据相关性来消除时间上的冗余,达到压缩的目的。随着新技术的发展和高清晰度视频
随着通信和网络技术的飞速发展,各种嵌入式系统都对设备内部的数据传输速率提出了更高的要求。传统的分级共享总线结构已达到了极限性能,互连技术问题已经成为制约嵌入式系统
随着3G业务的迅猛发展,用户对上行传输业务的速率要求也越来越高。为了进一步提高TD-SCDMA系统的上行业务速率,改善用户满意度。3GPP在R7版本中提出TD-HSUPA技术标准作为其上行
伴随着工业化的发展和自动化程度的提高,电子领域对信号采集技术的要求也日益提高。近年来信号采集技术取得了长足的发展,信号采集的精度以及效率都更高了。并在智能终端、医
当今社会,数字信息化时代已经来临。伴随着信息化科技程度日渐成熟的脚步,网络互连技术也在迅速成长,并且时时刻刻改变着我们的生活环境。过去没有想过的现如今都能进行实现,
随着Internet的日益普及和快速发展,对等网络(P2P)系统因其良好的可扩展性和高效的查找特性,受到了越来越多学者和技术人员的青睐。如何在P2P系统中高效地查找到相应的资源结
OpenRISC是基于GNU通用公共授权协议的开源精简指令集处理器,这是一个由OpenCores组织提供的处理器家族。在IP核价格昂贵、技术保密的情况下,该系列处理器软核的一大特点就是
随着第三代移动通信技术快速发展,3GPP启动了无线接入网长期演进(LTE)研究项目,也是近两年来启动的最大新技术研发项目。与第三代移动通信技术相比,LTE更具优势,具体体现在:高数据
变压器是电力系统的枢纽设备,在电力系统输变电过程中起着举足轻重的作用,其运行的可靠性直接关系着电力系统的安全运行。为了保证电力系统的安全稳定运行,必须加强对变压器的故障诊断。目前,用于变压器故障诊断研究最多的特征量是油中溶解气体含量和局部放电信号。油中溶解气体分析能够诊断变压器故障类型,局部放电的模式识别能够及时发现绝缘内部局部缺陷及放电发展程度,可以将故障消灭在萌芽状态。因此本文利用油气特征含量
随着信息化高速发展和普及,人们越来越依赖于计算机和互联网络。如果计算机网络系统的安全受到危害,将会给我们的生活带来严重的影响。因此,信息安全已经成为全社会关注的焦