语音特征空间映射提高说话人识别性能

来源 :苏州大学 | 被引量 : 0次 | 上传用户:victinfy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人识别就是从说话人的一段语音中提取出说话人的个性特征,通过对这些个性特征的分析和识别,从而达到对说话人进行辨认或者确认的目的。GMM方法是目前文本无关的说话人识别广泛应用的方法。本文使用GMM方法,通过实验分析得出了基于GMM的汉语说话人识别的一些概括性结论。分析了在不同的混合模型数、特征参数MFCC及LPCC、不同训练语音长度、不同测试语音长度及不同的预处理条件下的识别性能。由实验结果得出:MFCC的识别性能优于LPCC;用30秒的训练语音长度去建立说话人模型就足够了,并且MFCC及LPCC分别在4秒和5秒测试语音长度时误识率达到了0。接着本文提出了语音特征空间映射的方法并应用于基于GMM的说话人识别中。实验中采用了12维和14维的LPCC及MFCC作为语音特征参数,根据各维语音特征分量在说话人识别中的相对重要性得出初始的映射因子,然后通过本文提出的算法依据最低误识率的准则修正此映射因子以寻求其特征空间的最佳映射。映射后的语音特征空间更具类别的可分性,增强了语音特征中说话人的个性特征,从而提高了识别性能。在本文最后还提出了特征参数子分量分析的4S方法,该方法可以分析和评价语音特征参数中语义和说话人个体特征信息。通过DTW实验分析了LPC、LPCC及MFCC特征参数中语义及说话人特征信息两个子分量的一些特性。
其他文献
星上处理技术对提高卫星通信的传输质量和频谱利用率起着重要作用。再生式星上处理虽然优点显著,但与透明转发器相比:实现难度大,设备复杂度高,可靠性降低,应用灵活性受限,体积和功
入侵检测作为一个迅速发展的新领域,已经成为网络安全研究中一个极为重要的研究方向.随着计算机和网络技术的发展、Internet覆盖范围的不断扩大,攻击工具与手法日趋复杂多样,
The objective of this thesis is to study and analye varieties of power reductiontechniques, particularly focusing on system-level DPM and DV3 techniques.thi
数字水印技术是一种全新的信息安全技术,是多媒体版权保护和多媒体认证的强有力的手段,涉及到通信与信息理论、图像处理技术、网络安全等多种学科知识,极具学术价值和经济价
随着无线通信技术的发展,标准和协议日新月异,在一定的时期内各种标准的共存和各自的演进将一直存在,而实现各种无线通信环境下的无缝链接是实际应用提出的要求,这对硬件无线电实
甚低码率视频图像编解码技术是近年来视频处理领域中的一个研究热点。本课题采用的H.263协议是ITU-T关于比特率低于64Kbps的窄带通道视频编码建议。其信源编码算法的核心是H.26
随着通信科技的日益发展,新应用层出不穷.数字化远程图像监控系统以它不可抵挡的优势已经被广泛应用于交通、能源、公安、电信、军事等部门.该文提出了一种基于嵌入式应用系
可变形网格是目前图象编码方法研究的一个新方向。网格通常是指在图象区域内的多边形(三角形或者四边形)分割集合。本文比较了四边形网格和三角形网格在网格变形上的计算复杂度
混沌现象是非线性动力系统中一种确定的、类似随机的过程。由于混沌动力系统对初始条件的极端敏感性,而能产生大量的非周期、连续宽带频谱、似噪声且确定可再生的混沌信号,因而