实际情况下的短时场景说话人识别关键技术与系统实现的研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户：qqq123456123456

【摘要】

：

伴随着科技的进步，移动设备在人们的日常生活中扮演着越来越重要的角色。据统计在2012年，智能手机的市场占有率首次超过了个人电脑，标志着移动互联网时代的全面到来。包括智能手

【作者】

：

李为

【机构】

：

上海交通大学

【出处】

：

上海交通大学

【发表日期】

：

2016年01期

【关键词】

：

HMM-SVM模型短时场景特征稀疏补偿局部混合高斯分析说话人识别

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

伴随着科技的进步，移动设备在人们的日常生活中扮演着越来越重要的角色。据统计在2012年，智能手机的市场占有率首次超过了个人电脑，标志着移动互联网时代的全面到来。包括智能手机、智能车载、智能家居等一系列的智能终端产品为人们的生活带来了更多的便捷与舒适。相较于传统的电子产品，智能设备拥有更强大和丰富的功能、更快的运算速度、更大的存储容量，很多智能应用为了更好地适应和匹配用户习惯，往往存储了更多的个人信息，如何保障个人信息的隐私性与安全性成为了智能设备亟需解决的重要课题。相较于传统的数字和符号密码，说话人识别（也称声纹识别）以其采样便捷、安全稳定、不易仿制与窃取等诸多优势，开始在个人信息保护与设备控制领域发挥着越来越重要的作用。随着语音信号处理理论的日趋完善，以及模式识别领域的快速发展和突破，研究人员开始越来越关注如何在实际环境下保持说话人识别系统性能的稳定，以及如何在复杂环境下进一步提升说话人识别系统的性能。在这样的背景下，本文从构建一套完整的声纹识别系统的角度出发，以构建一个模块化的、具有高度可移植性、可以适应多种实际应用场合的说话人识别系统为目标进行工程化和理论研究。借助高斯混合模型（GMM）对实际数据分布的强大拟合能力以及支持向量机（SVM）良好的非线性分类性能作为基础，本文围绕着说话人识别系统几个关键的核心模块：前端预处理、特征提取、模型训练以及参数优化、信道补偿、特征稀疏性补偿这几个方面进行了深入的研究，为说话人技术在信息加密、目标用户身份确认、安防保护等领域提供坚实的后盾。本文的主要工作和创新点如下：　　（1）针对文本无关说话人识别中的高斯混合模型-支持向量机（GMM-SVM）建模算法，本文提出了一种改进的应用于文本相关说话人识别的隐马尔可夫模型-支持向量机（HMM-SVM）建模算法。该算法利用HMM模型的状态转移特性对语音中的时序信息进行建模，使得每个状态对应的GMM分布既能表征说话人的身份信息，同时也能体现出文本内容的变化。在后端SVM分类器中，本文用说话人相关且文本相关的HMM超向量取代了GMM-SVM模型中说话人相关文且本无关的GMM超向量作为SVM的训练和判别样本。本文提出的HMM-SVM建模算法在RSR2015文本相关说话人识别标准数据集上取得了良好的识别性能。　　（2）对文本无关说话人识别应用中的因子分析建模算法进行了深入的研究，包括联合因子分析模型（JFA）、基于全因子矩阵的身份向量模型（i-向量）和概率线性区分分析模型（i-向量+PLDA）。本文通过大量的实验和理论分析对比了不同建模算法在不同实际应用场景中的优势和局限。基于NIST SRE2005、2006、2008训练数据集，本文对因子分析模型的参数进行了优化，使得算法在NIST SRE2008测试数据集中取得了良好的基线识别性能。　　（3）提出了基于i-向量框架下的减高斯分析（CRA）算法，可以在线上系统语料时长充分的场景下提升文本无关i-向量系统的性能。由于高斯混合模型和因子分析（FA）建模都是含有隐变量的模型，因此无法直接利用语音特征（梅尔倒谱系数MFCC或者感知线性预测系数PLP）集合对模型参数进行估计，需要将语音特征集合通过背景模型估计生成对应于该段语音的Baum-Welch统计量进而对模型参数进行训练，本文通过设计实验发现，由于文化和习惯的差异，语音特征是不平衡分布的，反映到Baum-Welch统计量上就是不平衡的0阶统计量分布。相对较低的0阶统计量分布会导致1阶统计量偏移正常的范围，导致估计有偏，进而对表征说话人身份的i-向量向量带来负面的影响。本文通过分析训练和识别语音通过背景模型得到的0阶统计量分布，将那些0阶统计量极小的Baum-Welch统计量集合丢弃，保留那些可信的统计量参与到i-向量的估计中，从而得到更加稳定和鲁棒的识别性能。　　（4）提出了基于i-向量框架的自适应1阶Baum-Welch统计量分析（AFSA）算法，在短时语音环境下进一步提升文本无关i-向量系统的识别性能，同时该算法只针对短时语音带来的特征稀疏问题进行补偿，与信道补偿模块和算法相对独立，彼此互不影响。承接（3）的实验分析，本文进一步分析了短时语音的特征稀疏性导致的有偏Baum-Welch统计量的问题。本文研究发现，0阶Baum-Welch统计量的取值与1阶Baum-Welch统计量的稳定性呈现出正相关性，特征稀疏性会导致一段短时语音通过背景模型后，有较多的高斯只能生成极低的0阶Baum-Welch统计量，相对应的一阶统计量会展现出很强的波动性，因此本文提出了一种优化Baum-Welch统计量的算法，从贝叶斯的角度审视Baum-Welch统计量的取值。本文通过贝叶斯估计的方法，使得最终参与估计i-向量的Baum-Welch统计量的取值为一个参考值和实际值的权衡，这种方法既能保存那些可置信的高斯集合中得统计量的取值，也能抑制不可置信高斯的有偏Baum-Welch估计。实验结果表明AFSA算法在线上系统短时语音参与训练和识别的场景下最多可以提升20%的识别性能。　　（5）提出了应用于文本相关识别的二进制余弦规整分数衡量算法。文本相关的说话人识别中，需要对说话人身份和语音中字典信息的双重匹配才能完成对一个身份的确认，然而基于因子分析模型的i-向量，JFA和PLDA建模都是通过一个低维度的系数向量对说话人模型进行全局估计以达到快速收敛的目的，这样尽管依然可以用来确认说话人的身份，但是就失去了语音字典信息确认的功能。本文针对因子分析模型的不足，提出了一种基于文本相关的二进制余弦分数规整算法，通过0阶Baum-Welch统计量得到一段语音对应的二进制编码表，命令为L-向量，如果两段语音字典信息差异很大的话，即使来自同一个说话人，对应的二进制编码表的相关性也会比较弱，本文从i-向量判别阶段的余弦SVM核函数出发，将两段语音的L-向量的内积作为核函数的调整因子，这样就将字典信息的差异融合进了最终的判别模型中，不需要额外的语音识别引擎也能实现文本相关说话人识别的双重信息确认。　　（6）将声纹识别技术落地产品化，开发了一款基于智能手机的加密软件，对需要通过网络识别的框架和无网络情况下的手机离线识别框架进行了工程上的探索。本文将GMM-UBM和i-向量的混合识别框架移植到了手机端，通过简化特征维度和压缩模型的方法在识别精读和计算速度中间达到了一个较好的平衡。另外，本文也对基于网络传输的在线说话人识别系统进行了性能的分析，通过采用先进的压缩编码手段对手机语音进行压缩，达到快速传输数据和节省手机流量的目的。截止到本文完稿阶段，该软件在各大安卓市场已经上架，并取得了良好的反响。

其他文献

环境污染物对精子损伤机制的研究进展

期刊

A Two-step Estimation Method of Troposphere Delay with Consideration of Mapping Function Errors

Mapping function errors are usually not taken into consideration,when space geodetic data observed by VLBI,GNSS and some other techniques are utilized to estimate troposphere delay,which could,however

期刊

tropospheric delaymapping function errorsVery Long Baseline Interferometrypar

三氯生在水生生态系统中的污染现状及其生物毒性效应

期刊

微波毫米波混频与倍频技术及应用研究

微波毫米波混频器与倍频器是通信、雷达、电子对抗、测试设备等电子系统的核心部件，高性能混频倍频理论与技术研究对于微波毫米波应用技术及亚毫米波技术的发展具有重要意义。

学位

微波毫米波混频器倍频技术电子系统变频损耗

邻苯二甲酸酯类增塑剂的体外细胞毒性评价

期刊

污水处理厂中有机磷酸酯的研究进展

期刊