基于GMM-HMM的声学模型训练研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:lzfx_521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别(Speech Recognition)是让机器自动将输入语音解码为对应文字的技术。近年来,随着声学模型及语言模型等建模算法的不断改进,语音识别系统的性能得到了极大的提高。而声学模型作为识别系统的基础,一直是语音识别研究领域的重点。它为每个声学基元建立发音的统计模型,在识别译码时作为匹配搜索的基础。一个鲁棒稳定的声学模型可以极大的提高系统在不同环境下的识别性能。本设计搭建一套基于统计方法的语音识别系统,主要由以下模块组成:声学特征提取、声学模型、语言模型、解码器。其中声学特征主要采用梅尔倒谱系数MFCC特征,语言模型采用Bigram模型,解码器采用令牌传递的算法。在所搭建的系统中,我们重点研究基于GMM-HMM的声学模型训练问题,特别是基于最大似然训练方法的声学模型训练问题。本设计实现了一套基于HTK的上下文相关三音素声学模型自动化训练方法及其并行化设计方案。一定程度上解决了传统的声学模型训练耗时长,训练步骤繁琐等问题。本文主要采用基于最大似然估计的声学模型训练方法,在训练过程中借助EM算法使目标函数在每次迭代更新中得到了优化;使用前后向算法等高效算法提高训练的速度。由于三音素模型基础声学单元数量很大,本文通过决策树聚类的方法减少模型的规模,以避免模型被过度训练,同时增加每个状态下的高斯分量以提高模型的精度。在公开数据集WSJ0上采用12小时语音数据进行训练,在测试集Nov92上达到90.76%的识别精度。本设计还研究了在模型训练过程中影响模型识别精度的相关因素,包括参数重估次数,数据量大小,决策树阈值设定等,给出了一套参数配置方案。最终,还在SGE平台上尝试进行多任务的并行训练,提出一种基于先进先出(FIFO)管道的声学模型训练并行化框架,极大提高了特征提取及参数重估的效率,在SGE平台上实现了7-14的并行加速比,大大减少了模型训练的时间。
其他文献
本文概括“和谐互助”高效课堂的操作模式,指出该课堂即“一半师傅一半学友”的课堂,都采取“五步十环节”的教学步骤,并论述了“和谐互助”高效课堂在阅读教学及作文教学中
用氯乙酸和四甘醇为原料,钼镍粉作催化剂化合成氯乙酸四甘醇双酯,经实验确定最佳反应条件为:n(氯乙酸)/n(四甘醇)=2.6,反应温度145℃,反应时间2h,催化剂用量为反应物总质量的4%,酯化率99%以
面对纷繁的网络世界,如何有效的搜索和提取信息,实现不同领域的知识、智力共享变得日益关键,因而合理高效地收集信息就越来越重要。结合虚拟智力资源的发展和其他基于网络的各种
本文论述在高中语文课堂教学中培育学生的求异思维,提出设计培养求异思维的教案、多角度思考培养求异思维、在情境教学中培育求异思维等途径,从而训练与发展学生的求异思维。
日前由浙江工业大学马淳安教授课题组和安徽安庆和兴化工有限责任公司合作完成的3000t/a丁二酸绿色电化学清洁生产工艺研究与工业化项目,引起了众多投资者的热切关注。该成果已
“一带一路”是我国对外开放和构建现代开放型经济体系的主体战略,全国各地都在探索“一带一路”试验区建设,河南省应发挥战略叠加、经济大省、国际枢纽、总书记指示等独特优
本文通过文献分析的方法,分析了我国事业单位员工的心理健康状况及影响因素,并从精神分析和临床心理学的角度分析了时间管理倾向对心理健康水平的影响,得出结论:二者在理论上
伴随着全球化的发展,中国正面临着进一步的现代化转型的任务,伴随着利益和价值观念的多样化、市场经济发展、网络信息化、社会民主化日益突飞猛进发展的挑战,一个健全社会建
本文采取侧重自主性、实践性活动的"明确证据"的方式,对普通高中贫困生发展核心素养进行评价,并提出提高贫困生发展核心素养的思考与建议。
合同的效力制度是合同法中的重点和难点,对合同的效力要件作出具体而明确规定,将会使《合同法》更具操作性。虽然我国《合同法》未对合同的效力要求件作出具体规定,但我们认