基于模型聚类的说话人识别方法研究

来源 :武汉理工大学 | 被引量 : 7次 | 上传用户:zs297481492
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别是一种身份认证技术,可以通过计算机来自动实现。说话人识别由于其不仅方便、经济且准确性高,逐渐成为人们常用的身份验证方式,市场应用前景非常广阔。识别正确率和鲁棒性一直都是说话人识别系统的研究重点,混合高斯模型(Gaussian Mixture Model,GMM)由于能很好地描述说话人特征分布情况,被广泛地应用于与文本无关的说话人识别中。随着识别系统语音库中的说话人数目的增多,传统GMM模型的识别时问越来越长,识别速度慢将大大限制说话人识别系统的实用性。本文提出基于模型聚类的说话人识别,在尽量不降低识别性能的情况下,大大提高识别速度。在识别时,发现每次得分较高的说话人模型只有少数几个,因此只需将测试特征矢量与这少部分说话人模型进行匹配,就可确定说话人身份。说话人模型聚类就是利用说话人模型相似的特性,将相近的说话人模型聚类,聚类后为每一类选取类中心和类代表。测试时,首先计算测试特征矢量与类中心之间的欧氏距离或者与类代表之间的对数似然度,选定距离最小或者得分最高的一类,再计算测试特征矢量与选定类中说话人模型之间的对数似然度,最终确定目标说话人。由于可能出现聚类不完全的情况,在测试时选择得分较高的几类构成类的子集合,可以保证识别正确率。实验结果表明:相较于传统的GMM模型,基于模型聚类的说话人识别在聚类数目为100,测试搜索范围为20%时,识别正确率只降低了0.95%,但是平均识别速度却提高了近4倍。为了进一步提高说话人识别系统的识别速度,本文又提出说话人模型聚类和预量化或剪枝相融合的算法。预量化或剪枝是对测试特征矢量进行处理来提高识别速度,属于测试阶段的提速方法;而说话人模型聚类是指在训练阶段结束后,将训练好的说话人模型聚类,属于训练阶段的加速方法。不同阶段的加速方法可以进行融合,进一步提升系统的识别速度。
其他文献
随着个人数据通信的发展和人们对移动性的要求,越来越多的企业和运营商开始大规模地建设WLAN (Wireless Local Area Network,无线局域网),人们逐渐发现传统的WLAN中AP (Acces
FPGA(FieldProgrammableGateArray,现场可编程门阵列)以其强大的可重复编程能力已经被广泛地应用在航天、军工以及工业控制等领域,成为星载信号处理和控制的关键部件,但是如同一般
随着无线通信技术的飞速发展,人与人之间的通信变得更加的普遍,无线通信的网络架构变得越来越复杂,可接入终端也变得越来越多。但是,这也带来了一系列新的问题。由于终端数量
  软件无线电是近年来研究的热点,作为一种新的通信体系,它的一些优势使其成为无线通信未来的发展方向。对软件无线电调制解调技术的研究也是软件无线电研究中重要的一部分。
随着科学技术的飞速发展,人类社会进入到了大数据时代。高精度传感器、空间探测技术、地震信号采集、社交网络等技术领域产生了大量的高维张量数据,如何有效处理高维张量数据成为了一个热点研究方向。本文主要研究高维张量感知理论问题,突破现有求解算法的瓶颈。针对张量感知问题,目前的解决方案多为基于一维或二维的压缩感知算法,将高维张量进行向量化操作求解,其问题在于破坏高维张量内部特征以及扩大计算复杂度;针对张量感
学位
1948年C.E.Shannon在《Amathematicaltheoryofcommunications》中提出了信息论的基本框架,指明了纠错编码的发展方向。迄今为止,编码领域主要存在两类方向研究编码,一类是以拥有
基于机会网络的动态拓扑性、非全连通性以及能量受限性,其研究的重点和难点是如何设计有效策略来控制能量有限的节点间的内容扩散。运用数能协同技术,用户可以收集周围环境能
鉴于LTE-A系统的高速率、低时延以及高可靠性等特点,基于LTE-A的车联网是近些年新兴的研究热点。目前基于LTE-A的V2V通信研究还处于起步阶段,LTE V2V的相关标准仍在制定当中,
当前,各式各样的移动社交网络服务给人们的社交生活提供了便利,但是这些社交网络服务主要关注人与人之间的社会关系,而没有向人们提供能够发掘全面社交信息的渠道。于是,“基
多天线MIMO技术可以在不增加系统带宽和总的发射功率的前提下显出提高系统的容量和链路可靠性。在MIMO系统中,如果发送端能够获知信道的某些信息,就可以利用该信息对发射信号进