基于稀疏编码的鲁棒说话人识别

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户：zhongjcrazytbag

【摘要】

：

近十几年来,相较于传统身份认证方法,生物身份认证技术得到了研究人员的广泛关注和深入研究,其中说话人识别(speaker recognition)技术是一个新的研究方向。说话人识别即为通

【作者】

：

盖晁旭

【机构】

：

哈尔滨理工大学

【出处】

：

哈尔滨理工大学

【发表日期】

：

2017年期

【关键词】

：

稀疏编码说话人识别鲁棒性字典训练形态成分分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近十几年来,相较于传统身份认证方法,生物身份认证技术得到了研究人员的广泛关注和深入研究,其中说话人识别(speaker recognition)技术是一个新的研究方向。说话人识别即为通过人的声音来判断其身份,同目前已在实际当中广泛应用的指纹,面部特征,眼睛虹膜识别一样,都属于生物身份认证技术。与其他生物身份认证技术相比,说话人识别具有很大优势,如:生物特征采集所用设备普及度高,整个认证过程无侵袭性等。因此,将说话人识别应用于实际意义重大。但是,现实应用中普遍存在的语音缺失和环境噪声问题,对说话人识别方法的鲁棒性提出了很高的要求,这也成为说话人识别方法研究当中的难题。目前,几乎所有的说话人识别方法都是基于模型匹配的思想,所以研究重点都集中在说话人模型的建立上面。常见的方法中,高斯混合模型(Gaussian Mixture Model,GMM)应用最多,特别是在其基础上发展而来的高斯混合-通用背景模型(Gaussian Mixture Model-Universal Background Model,GMM-UBM)和高斯混合-支持向量机模型(Gaussian Mixture Model-Support Vector Machine,GMM-SVM)都取得了非常不错的识别效果。但是对于只有少量语音数据或环境存在噪声的情况,识别率明显下降,虽然有许多改进的方法相继提出,但识别的鲁棒性离实际要求还是有不小的差距。针对上述问题,本文主要研究少量数据以及训练和测试环境不同时存在噪声情况下的鲁棒说话人识别方法。首先,针对只存在少量语音数据的问题,提出一种基于稀疏编码的说话人识别方法。该方法在训练阶段,分别为每个说话人训练字典,然后根据重构误差进行打分识别。在不含噪声且数据不充分的情况下,将传统经典的GMM-UBM和GMM-SVM方法与所提出方法进行对比。然后,在目前应用形态成分分析(Morphological Component Analysis,MCA)的说话人识别方法基础上,借鉴GMM-UBM的思想,提出一种新的说话人识别方法,该方法训练一个背景字典,目标说话人字典由背景字典优化生成,引入一个噪声字典,将这三种字典最后拼接成一个大字典用于稀疏分解,从而使得说话人识别对混噪测试语音具有鲁棒性。借助S-SGK(SparseSequential Generalization of K-means)混噪信号字典训练算法,提出了一种针对训练语音混噪情况的鲁棒说话人识别方法。本文进行了大量的实验,结果表明在语音数据不充分的情况下,提出的基于稀疏编码的说话人识别方法效果较GMM-UBM和GMM-SVM的识别效果有较大提升;分别在人为合成混噪测试语音和混噪训练语音两种条件下,提出的基于MCA和基于S-SGK字典训练算法的说话人识别方法,比其他一些常见方法具有更高的识别准确率。

其他文献

基于MR图像骨头配准的研究

通过磁共振图像检测骨头病变，以及对其进行形态描述，已成为骨头诊断和治疗中广泛使用的手段对骨头进行检测并标定对比不同时期骨头形体位置所发生的变化，可以直接诊断骨头的病情

学位

磁共振DICOM标准主轴配准方法改进的迭代最近点配准方法

基于视觉的行人流量统计方法研究

行人流量统计技术是智能视频监控领域的重要组成部分。通过对行人流量数据的掌握和分析，管理者能够更好地进行人力、物力等资源的合理调度，行人流量统计技术具有良好的市场价值

学位

行人流量统计目标检测行人跟踪头肩特征

牧草图像的数字处理方法研究

牧草是我国重要的种植作物之一,其中苜蓿作为北方地区牧草的代表品种,种植面积广大,大力发展牧草种植业,是发展畜牧业基地建设,提高畜牧产品供应能力的重要保障和基本需求。

学位

牧草图像预处理图像分割灰度化最佳阈值

基于以太网实时多轴运动控制研究与实现

近年来,随着工业技术的不断发展,生产自动化在实际工作生产过程中所占的比例也逐年上升。应用现场对数控设备的运动控制精度和灵活性等技术指标的要求也随之增高。目前广泛应

学位

以太网网络芯片驱动多轴运动控制实时控制FPGA

基于并行BP神经网络算法的软件项目风险评估

BP(Back Propagation)神经网络现已广泛应用在预测、识别、自动控制、诊断、分类、非线性逼近等领域,是目前人工神经网络算法中应用最广泛的训练算法之一,但是该算法在也存在

学位

BP神经网络算法软件项目风险评估MPI并行C语言

基于OBDD的模式匹配算法研究

目前,计算机和网络发展越来越迅速,随之而来的网络安全问题也越来越突出。现代网络安全应用通常采用深层数据包检测来识别恶意流量,如基于网络的入侵检测系统(NIDS)和防火墙

学位

模式匹配布尔函数有序二元决策图

基于WIFI与移动智能终端的室内定位技术研究

位置服务与人们生活息息相关,借助无线电通讯网络或者各国的卫星定位系统,人们在室外广阔空间的定位与导航服务已经相当成熟。然而对于卫星信号无法抵达的定位盲区如地下室、

学位

室内定位WIFI高斯过程回归位置指纹PDR

票据图像压缩和基于水印条码的相关研究

随着计算机网络技术的高速发展以及无纸化办公的普及，票据图像的压缩技术和防伪日益受到重视。海量票据图像存储急需更有效的压缩算法；传统票据图像的防伪主要是基于QR(Quick R

学位

图像压缩数字水印二维条码纠错编码抗旋转图像复原

基于银行家算法的分布式互斥请求集生成算法研究

分布式互斥系统的效率极大程度上取决于生成请求集的效率,目前的请求集生成算法已经将请求集长度降到最低,但是时间复杂度过高；如果想要获得快捷的生成效果,又需增加请求集长

学位

分布式互斥请求集银行家算法剩余长度

基于身份特征度量建模与融合的多因素身份验证

身份管理系统建立的目的是为用户提供不容易被复制、盗取和改变的唯一的识别信息。本文运用定影模块技术,构建了一个多特征的认证系统,它可以满足上述目的,为用户提供安全和

学位

多特征验证系统人工智能信息融合身份属性度量

基于稀疏编码的鲁棒说话人识别

其他学术论文