语音识别系统的声学建模研究

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:fkjunjin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声学建模是语音识别领域中的关键问题之一。本文对汉语连续语音识别中的声学建模技术和参数共享策略进行了深入的研究。主要针对以下两个方面:一、研究了基于决策树状态共享的上下文相关声学建模方法,其中针对声学建模的声学单元选择和决策树问题集设计进行了深入研究和优化;二、针对声学模型训练过程中的实际问题,如训练数据稀疏,模型选择和发音变体等问题对声学建模过程进行了优化。具体包括以下几个方面:1.对HTK平台进行了研究和分析,在深入了解HTK平台的基础上展开声学模型训练和性能评估实验。其中,对上下文相关(ContextDependent,CD)声学建模中基于决策树状态共享策略进行了深入研究。分析了两种不同的决策树构造方法,讨论了问题集的设计和决策树节点的分裂策略,并展开了一系列优化决策树状态共享的上下文相关声韵母(CD Initial/Final,CD-IF)的基线声学模型的实验。a)为了保证声韵母之间的相互搭配关系,在原来的基本声韵母集合上,增加了零声母部分,形成扩展声韵母(ExtendedInitial/Final,XIF)集合。实验证明XIF模型比IF模型具有较高的识别率。b)根据语音学知识优化了决策树问题集的设计,并调整了决策树分类门限,在单混合度下,获得了4%的音正确率提升。2.针对训练语料中一些声韵母三音子有调样本数和无调样本数的不平均现象,本文首次提出通过无调声韵母三音子模型为有调声韵母三音子模型做初始化的方法优化声学模型。该方法在相同条件的训练和测试集下提高了识别性能,特别是在有调三音子稀疏现象明显的测试集中效果提高显著。此外,本文研究了声学模型的复杂度调整策略,通过自适应混合分量增长策略,在高斯数目少于混合分量数为6时,识别正确率与混合分量数为8时相当,并且在一定程度上减少了高斯总数。3.研究并实现了半连续分段概率声学模型。该模型在经典HMM模型及其模型混合高斯连续概率模型(Mixed Gaussian ContinuousProbability Model)基础上,结合矢量量化技术和连续概率密度描述的特点,以混合共享的方式来描述各状态的概率分布。在中等词汇量的非特定人连续语音库测试集中,与原来的MGCPM模型相比,混合分量共享声学模型在保证识别率基本不下降的情况下,一定程度降低了模型规模和计算复杂度。此外,本文在基线系统模型基础上,对存在的发音变体进行定位和信息收集,通过有效进行训练语料中出现的发音变体的建模,旨在有效地增强现有模型对各种发音变体的鲁棒性。
其他文献
在现代电子战、信息战环境中,由于利用目标辐射电磁信息的无源定位系统具有自身隐蔽和探测距离远等优点,因此它具有重要的应用价值,并已成为当今非线性跟踪与估计研究领域的
铁路运输安全关系到国民经济的命脉,铁路通信是铁路生产运输的安全保障,其安全性、可靠性和可持续发展性取决于所采用通信技术的先进性和完善程度。GSM-R是一种先进的技术体系,
在移动无线通信环境中,频谱资源极其有限,充分合理利用频谱资源,实现通信的高效和可靠传输是现代通信领域研究的主要课题。特别是对于无线局域网,原来的多址是CSMA,随着用户
期刊
期刊
宽带无线城域网(IEEE 802.16)与传统的无线接入技术相比具有更高的带宽速率,更大的覆盖范围,更低廉的成本,被认为是“最后一公里”接入的最佳解决方案。IEEE 802.16网络被认
期刊
本文主要研究利用小波变换和模糊理论对图像进行增强处理。本文首先提出了基于模糊理论的多方向增强算法,该算法按照最大隶属度原则确定像素点的方向,然后进行相应的处理,该
期刊
边缘是图像的最基本特征。边缘检测在图像识别、图像分割、图像增强以及图像压缩等领域中有着广泛的应用,也是它们的基础,一直是数字图像处理领域研究的热点和焦点。水珠图像的