基于GMM统计参数和支持向量机的说话人辨认系统

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:zth123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是语音信号研究中的一个重要方向,有着重要的理论意义和广泛的应用前景。近些年来,有越来越多的新技术、新方法被应用到说话人识别中来。本论文的目标是将支持向量机应用于说话人识别系统,主要研究内容如下:第一,介绍了本论文中使用的特征参数的提取和GMM统计模型,简单讨论了大数据量的处理;第二,讨论了支持向量机的基本理论,着重介绍了一些基本的算法,它们是将支持向量机应用于说话人识别的理论基础;第三,分析支持向量机技术的优缺点。支持向量机作为数据挖掘中的一项新技术,近年来在模式识别等许多领域取得了与传统方法可比或更好的结果,具有比传统方法更好的分类性能,但是由于它的训练方法非常复杂,难以处理大样本,限制了其在说话人识别方面的使用,另外,支持向量机属于一种模板匹配方法,对语音信号的统计信息不能加以利用;第四,在以上分析的基础上,提出了一种基于GMM统计参数和SVM的说话人辨认系统,首先利用EM算法来处理说话人的大量样本,并将这种方法与矢量量化的方法进行比较,显示了EM算法更好的“聚类”性能;其次,用EM算法处理后的特征向量训练SVM说话人辨认模型,解决了SVM模型训练困难的问题,并且在识别时取得了较好的效果;最后,本文分析了倒谱加权方法在本系统上的应用,通过实验得到了一个适合于本系统的加权窗函数,在与倒谱加权方法结合后,系统的鲁棒性增强,识别性能进一步提高。
其他文献
人们一直期待着实时传输视频图像信号,而实时视频传输首先需要解决两个主要问题:如何获取数字视频信息?怎样对获取的视频信息进行有效的压缩编码以减少数据量?信息获取取决于高
随着无线通信业务的发展,可利用的频带资源变得日益紧张。然而在另一方面,很多已被授权的频谱资源的实际利用率是非常低的。认知无线电技术正是针对这一状况提出并发展起来的
本文主要探讨了有限冲激相应信道下无线多载波通信系统中常见的问题,对多载波信号抗多径干扰的能力在连续时间域和离散时间域分别予以理论分析证明。通过研究数字信号处理以及
移动通信技术发展日新月异,人们在享受3G网络带来的便捷的同时,也察觉到了 3G网络的弊端,如某些区域3G信号不强或者存在干扰等,这都会严重影响用户的3G体验。目前国内各大通
本文研究的重点是如何实现远距离更多用户倍增。 首先介绍了xDSL及SHDSL技术,特别是SHDSL承载语音技术的优势,其次详细分析了基于SHDSL技术的用户线路倍增系统的组成及功能,
IP网,无线通信网等网络环境中的实时视频传输是一件具有挑战性的工作,因为它要求视频信号必须具有很高的压缩效率和友好的网络接口设计。 H.264是ITU和ISO联合制订的新一代
移动通信中继站是组成完整移动通信系统不可缺少的一部分,软件无线电是无线电通信的发展趋势,中频部分数字化是软件无线电关键技术之一,本文以软件无线电理论为基础,讨论了直放站
随着通信技术的快速发展和网络接入技术的不断提高,多种无线网络同时存在。网络间既彼此竞争又互相补充,构成了异构无线融合网络。其中,以WLAN与3G网络融合最具代表性。WLAN
本文的研究思路就是以提供自适应业务特征为核心,在Parlay/OSA结构的基础上讨论新的NGN业务体系结构,对NGN自适应业务依据功能进行分类,并分别介绍了各种自适应业务的基本概念和
随着互联网技术的发展以及海量数据管理需求的日益增加,对等网技术在网络应用领域起到了越来越重要的作用。如何发布数据以及如何对分布在网络中各个节点上的数据进行基于语义