基于i-vector特征规整的概率线性判别分析说话人确认方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ydaf9ta7
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人确认技术用于判断给定语音是否属于某个说话人,它作为一项关键的语音辅助应用技术,现阶段已经受到广泛的重视,并作为身份认证技术普遍应用于各种相关领域。而在已有的各种说话人确认方法中,基于i-vector的概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA)的说话人确认方法因其优秀的识别效果和良好的实时性受到了广泛关注,成为目前最主流的研究方法之一。识别建模的关键之一在于对特征分布的拟合,而PLDA建模阶段存在着对i-vector分布的高斯假设,当面对信道畸变、短语音等情况时,这一假设就显得过于苛刻。在基于i-vector的PLDA说话人确认方法中,若无法对i-vector特征进行很好的拟合,会对识别结果的准确率和稳定性产生较大的影响。因而,如何对i-vector的分布进行合理的高斯规整,是该领域的关键研究问题之一。从算法的灵活性和普适性的角度考虑,本文提出了基于KL散度的区分性规整方法(Kullback-Leibler Divergence Divisive Normalization,KL-DN)。该方法不对总变化空间提取的i-vector的初始分布做任何假设,而是通过非参数的方法对i-vector的分布进行估计。同时,为达到PLDA模型中的高斯假设,提出利用KL散度作为i-vector分布与高斯分布间差异性的度量标准,并提出通过一个非线性的转化函数来有效减小这一KL散度。实验基于NIST2008的核心数据集展开,结果表明,i-vector分布与高斯分布之间的KL散度与说话人确认的结果间呈负相关,并且通过本文提出的KL-DN方法,可以有效地减小对应KL散度进而提高识别结果。针对KL-DN面对短语音说话人识别存在的缺陷,在遵循KL散度作为特征分布之间差异性的度量标准的基本思想条件下,我们提出了一种基于旋转的迭代高斯规整方法(General Rotation-based Iterative Gaussianization,GRBIG)来实现特征的高斯规整。该方法通过联合使用边缘高斯化和空间旋转矩阵,对i-vector的分布进行高斯规整。实验结果表明,在NIST2008短语音测试数据各个相关数据集以及NIST08的核心数据集上,说话人确认性能均有不同程度的提升。
其他文献
伴随着计算机技术特别是网路技术的日益发展,对人们的计算机操作技能特别是像Office类基础软件的操作技能要求越来越高,为了进一步提高Office操作技能水平,满足课程考核需求,国外
积件式教学系统克服了传统课件模式中教学思路固定的弊端,具有高度的灵活性和重组性,既具备了传统课件“直观、形象”等优点,又糅合了“黑板式”教学模式中“灵活、自由、便
随着现代通信技术的发展,Web系统应用领域越来越广泛,其在传播信息的范围和数量上都呈现出指数级增长。Web服务器作为Web系统信息发布、处理的关键性节点,比以往要承载更多的
随着“情报主导警务”的提出,公安部门正在大力进行信息化建设,全国公安系统已经完成了公安三级和四级网络建设任务。信息化建设能够大力加强和改进公安队伍建设,大力提升警
随着计算机软、硬件技术的迅猛发展及广泛应用,人与计算机之间的交互活动也越来越密切。手势这一人与人之间除自然语言外最重要的人际交流方式也被引入人机交互中,使得人与计
传统的纸笔测验只能提供被试一个测验总分,计算机化自适应测验能估计出被试的能力水平,但是这两种测验都没有提供被试潜在知识状态的相关信息。而认知诊断能够从学生的作答反
学位
无线传感器网络是沟通物理世界与信息世界的一个重要桥梁。目前,无线传感器网络正在从实验室研究过渡到规模性的商业应用。这一阶段中,需要解决的关键问题是如何提高无线传感
可靠性理论起源于20世纪30年代初,但对系统进行可靠性分析则是从20世纪40年代开始的。最开始可靠性理论是运用统计方法于工业系统的质量控制中。二次大战期间,许多大型复杂系统
随着社会的发展和科技的进步,图像识别作为计算机视觉的重要组成部分,获得了长足的进步。传统的目标识别任务需要进行繁杂的图像预处理,且需根据识别目标的具体特征设计专门的特征提取方法,通过传统方法所获取的分类器识别精度低,且适应能力较弱。针对传统方法在目标识别领域的不足,本文基于深度学习技术,设计改进的卷积神经网络实现图像识别,利用神经网络强大的特征学习能力提取图像信息,以此提高图像识别模型的检测性能。
学位