基于LBG码本生成改进的说话人识别

来源 :兰州大学 | 被引量 : 0次 | 上传用户:wyhai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别技术作为语音信号处理技术的一个重要组成部分,有着十分广阔的研究和应用前景。在说话人识别方面已经有了许多采用不同参数的识别方法,本文从基础出发,在学习语音识别技术的基本原理的前提下,将书本中的理论应用化,在基于特征参数的矢量量化的说话人识别上取得了不错的效果。本文首先阐明说话人识别原理,在进行初步实验的基础上,比较了不同的声学特征参数,最终采用了能够反映人对语音的感知特性的Mel倒谱系数(MFCC)作为进行矢量量化的特征参数。LBG算法具有理论上的严密性、应用上的简便性以及较好的设计效果,因此本文在矢量量化聚类时采用此算法。但传统的LBG算法在码本的生成上存在着码字均匀分裂问题,针对此问题本文提出了两种不同的解决方案:第一种方案采用变量作为码本生成的扰动量,即采用变步长分裂方法来提高码本的生成速度;第二种方案改变初始码本中码字的个数,使码本从开始便在畸变最大的方向进行分裂。在改进码本的生成方法的基础上,继续传统的LBG算法,这样既可以继承传统LBG算法的优点,又可以得到质量相对较高的码本。在最终的说话人识别上,采用了改进后的LBG算法,提高了说话人的识别率。论文的最后,在识别说话人的基础上,对语种识别做了初步的讨论,指出了下一步的工作方向。
其他文献
CT机内部控制系统位于CT控制平台和扫描系统间的中间链路,同时完成运动控制和通信控制两大主要功能,是CT系统的重要组成部分,是通信的枢纽。它具有多任务实时处理的特点,本文研究了基于嵌入式技术的CT机内部控制系统,包括SOPC技术、信号完整性技术,嵌入式软件技术,总线技术等。本文根据CT机内部控制系统的设计需求,确定了CT机内部控制系统的总体结构,完成了控制器的软硬件功能划分。本设计中,采用仿真等手
数据采集系统是信号与信息处理系统的重要组成部分。随着宽带、超宽带雷达技术研究的深入和软件无线电技术的发展,对数据采集系统的速度和精度提出了越来越高的要求。但受模
随着计算机网络的飞速发展,网络结构日益复杂,规模不断扩大,信息技术的应用模式发生了很大变化,网络管理的作用和地位也越来越突出。面对日益增多的网络设备,传统的集中式网
合成孔径雷达(SAR)作为一种主动的遥感探测手段,具有全天时、全天候、远作用距离和高分辨率等优点。在一些复杂的观测环境中,SAR成像能获得比光学成像和红外成像更加良好的成像
被动测距声纳系统是利用换能器基阵接收的目标辐射(噪声)信号来估计目标距离。其主要任务是探测目标的距离、方位及运动速度等,对目标实施跟踪。其关键技术是高精度的时延测量
在网络化时代,信息的安全日益重要,群签名作为数字签名领域的一个重要分支,在信息安全的应用中有着广泛的前景。为了研究并寻找安全高效的群签名方案,用于文件的安全管理,论文深入
近年来,伴随互联网技术的快速发展,越来越多新型通信需求随之出现,尤其是日益兴起的视频会议、在线教育、IP电话等多媒体实时业务。此类的应用往往会对网络的通信能力提出更高的
近年来,由于固定式的频谱分配使得现有的无线频谱利用率很低。美国联邦通信委员会(Federal Communications Commission, FCC)的一项调查表明,实际分配给授权用户的频谱在广阔
正交频分复用(OFDM)系统是未来无线通信系统的基本应用技术之一,以其有效对抗多径衰落的特性以及较高的频谱资源利用率而受到广泛关注,有望被下一代移动通信系统所采用。但是OF
视频编码标准H.264/AVC应用越来越广泛,但其较高的运算复杂度对硬件的实现提出了挑战。采用DSP与FPGA等硬件实现视频编码成为了视频应用领域的研究热点。本文以TI公司的高性能