【摘 要】
:
声纹识别技术作为语音识别技术的核心研究领域,一直备受语音研究者们的重视,其在金融、司法、国防等诸多领域都有着广泛的应用前景。声纹与人脸、指纹等生物特征相同,能够表征人的身份。随着智能手机的普及,提取声纹所需的麦克风硬件环境已经趋于完善,大量用户的语音数据随之而来。在这一发展背景下,依靠概率模型进行打分判定从而进行身份识别的传统声纹识别模型受限于其计算速度的缓慢,很难搭建效果良好的系统。随着深度学习
论文部分内容阅读
声纹识别技术作为语音识别技术的核心研究领域,一直备受语音研究者们的重视,其在金融、司法、国防等诸多领域都有着广泛的应用前景。声纹与人脸、指纹等生物特征相同,能够表征人的身份。随着智能手机的普及,提取声纹所需的麦克风硬件环境已经趋于完善,大量用户的语音数据随之而来。在这一发展背景下,依靠概率模型进行打分判定从而进行身份识别的传统声纹识别模型受限于其计算速度的缓慢,很难搭建效果良好的系统。随着深度学习和神经网络技术的不断发展,其天然适合处理大量数据的特性非常适合声纹识别技术解决现在所面对的问题。本文基于卷积神经网络对声纹识别算法进行研究,主要工作和创新点如下:(1)传统的声纹识别技术采用经典的梅尔频谱倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)参数作为表征声纹的参数,没有针对人类对声纹的识别特性在特定频段上的差异进行适应性调整。本文通过分析人类的发声原理和听觉特性,在传统声纹特征参数MFCC的基础上提出了两种改进方案。第一,根据人耳的听觉频率敏感度改进了滤波器组的结构,提取基于混合梅尔滤波器组的MFCC参数;第二,提取说话人的基音频率作为辅助参数,在传统MFCC特征参数的基础上融合基音频率得到新的特征参数。采用 GMM-UBM(Gaussian Mixture Model-Universal Background Model,高斯通用背景混合模型)模型对改进参数进行对比实验,实验结果验证了改进特征参数方案的有效性。(2)卷积神经网络技术主要应用于图像识别领域,本文基于人的听觉特性改进了卷积神经网络的结构,在AlexNet经典卷积神经网络结构的基础上取消了卷积核全局共享作用,使其适用于语音识别领域。由于声纹特征在不同频段上的分布量不同,所以在不同的频段采用独立的卷积核以保证最大限度地提取声纹特征信息。网络训练方面采用对数据库内的每段短语音提取语谱图作为网络的输入特征。同时构建了大小两个测试集对MFCC-GMM-UBM模型的性能和本文提出的模型性能进行测试比较。结果表明在大测试集的情况下用于声纹识别的听觉卷积神经网络性能优于传统概率模型,该方法对大数据背景下的声纹识别系统搭建有一定的参考价值。
其他文献
新高考数学不分文理并非新事,20世纪80年代以来我国部分省市曾采取高考数学不分文理的方式,但皆以失败而告终,其经验与教训值得借鉴。“旧”高考数学文理分科之所以长期存在,主要有三方面原因:一是具有文理分科的制度基础,二是高校各专业对数学的要求不同,三是具有引导中学数学教学的现实需要。当前新高考数学不分文理所遇困境与以往较为相似,凸显了公平与效率的问题。多样化与可选择性是新高考数学的未来发展方向,既可
聚氯乙烯(PVC)作为四大基础应用塑料之一,早已广泛应用在世界范围内各类行业,但其结构存在影响热稳定的活性基团,当加工使用温度超过100℃时,就会发生热降解现象,为了提升其热稳定性能,需在其加工过程中加入热稳定剂。水合铝酸钙作为一种新型热稳定剂,其分子结构与水滑石层状结构类似,其含有能够对聚氯乙烯(PVC)材料起到热稳定作用的元素和基团,可以在PVC加工过程中起到热稳定作用。由于其安全环保毒性低,
氧化铝生产中原料铝土矿、石灰、过程物料原矿浆成分以及产品氧化铝的杂质成分,是生产控制的重要依据和产品等级的重要评判标准。传统氧化铝生产过程中物料分析以化学方法为主;但传统分析方法受到试剂影响较大,分析结果容易受到外界因素干扰,分析效果不稳定和效率低下,不能满足我国当前氧化铝生产企业的需求。X线荧光光谱(X-ray fluorescence,XRF)的分析法是当前新兴的物料分析方法,利用不同物质经X
自2016年起,在明星、品牌公司的参与下网络直播平台取得了迅猛发展。网络直播作为一个新兴领域,在较短时间内达到了"全民直播"的成就。与此同时,网络直播平台在商业化应用发展过程中产生了许多问题。本文根据现实事例归纳出网络直播平台的特点、传播模式、存在的问题等。
我国内蒙古地区的白云鄂博矿是一座超大型的稀土-铁-铌复合矿。然而,大量有价组元在铁和稀土的选矿过程中被抛弃至尾矿库中成为潜在的二次资源。目前,通过碳热还原和熔分除铁可以实现白云鄂博尾矿中铌在熔分渣中的富集,如何进一步实现富铌渣中铌、稀土、钛等有价金属元素的分离与富集成为解决白云鄂博尾矿综合利用难题的关键。本文以白云鄂博含铌尾矿经碳热还原和除铁后的富铌渣为研究对象,利用热力学计算和高温模拟实验研究了
我国铝土矿大多是一水硬铝石型铝土矿,我国处理铝土矿的主要方法是拜耳法。一直以来,我国的氧化铝工业长期都是以高污染、低利用、高消耗的粗放的方式来促进经济增长。一直困扰我国氧化铝产业做强做大的主要原因是发展基础薄弱、生产技术落后、设备老化,这些因素同时制约我国氧化铝工业实现可持续发展,铝土矿资源、能源和环境污染等问题也由此产生,所以对拜耳法生产氧化铝企业进行技术性分析是有必要的,对指导生产实践具有重要
跨摄像头跨场景的视频行人再识别问题由于其在公安刑侦和安防监控中的重要应用价值,已经成为目前计算机视觉领域中的一项重要任务。其任务是对于某个摄像头中出现的一个行人,在其他摄像头中再次出现时,能准确地将该行人识别出来。在现实场景中,光照变化、遮挡、观察点变化以及杂乱的背景等造成行人外观的剧烈变化,增加了行人再识别的难度。经典视频行人再识别算法采用深度卷积神经网络提取逐帧特征,然后通过递归循环网络捕获时
国家电投山西铝业是一家生产氧化铝的国有企业,氧化铝产量在300万/年吨以上,由于企业内部流程复杂,污染源较多,面临着很大的环保压力。随着我国对环境保护要求的日渐提高以及新的污染物排放标准的颁布,除尘器作为最重要的环保设施面临着前所未有的压力和挑战。在实际的生产、工作过程中尽量降低能耗的同时提高污染环节除尘器的效率,降低污染物对环境的影响是目前形势下的重点工作。本文对焙烧车间DBH型电除尘与布袋除尘
行人重识别(Person Re-identification,ReID)是智能视频监控系统中不可缺少的一个环节。近年来许多研究已经在单域上实现了优秀的性能。然而,在一个数据集训练好的模型应用到另一个无标签的目标域进行测试时,会引起大幅度的精度下降。这是数据集之间由于不同摄像头下光照条件、背景、以及相机分辨率等不同导致的数据分布差异造成的,这也是ReID落地实施的一个主要障碍。为了解决这个问题,许多
拜耳法氧化铝生产过程中两个主要的耗汽单元是铝土矿的溶出和母液的蒸发。溶出过程中的蒸汽加热技术不仅大幅提高了溶出温度,而且降低了氧化铝生产过程中的能耗;母液的蒸发主要有两方面作用,一方面可平衡氧化铝生产过程中的水量,另一方面可排出杂质盐类。但是,我国的氧化铝生产工艺中的蒸发装置存在以下弊端,如循环效率低、蒸汽消耗偏高、容易结垢、设计蒸水能力达不到等。据统计,蒸发工序的能耗约占氧化铝生产总能耗的19%