基于HTK的汉语连续语音识别声学模型建模技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:chunwei_song
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别技术是将语音信号转换为文本的技术。自动语音识别也称为语音识别或者计算机语音识别,它的目标是让计算机能够识别出不同人所说出的连续语音,实现声音到文本的转换。语音识别是一门融合了许多学科的综合技术,它涉及到语音学、语言学、计算机科学等众多学科。经过多年的研究发展,语音识别技术已逐步由实验室走向应用阶段,在众多领域中得到越来越广泛的应用。但是对于大词汇量的汉语连续语音识别仍有许多技术性问题和关键技术有待解决,本论文就是对此展开研究工作。  本论文在Linux系统上,基于HTK工具箱平台,以隐马尔科夫模型理论为基础,搭建了针对非特定人、大词汇量、汉语连续语音识别系统,并以此系统为实验平台,对声学模型建模过程中的关键技术进行研究。  首先,论文介绍了搭建语音识别系统的基本步骤、语音信号处理的基本知识、语音信号端点检测技术以及特征参数提取的基本原理,然后重点介绍系统搭建的具体过程:根据汉语独特的声韵母发音方式,提取用于声学模型训练的特征参数;基于HTK软件工具包搭建汉语连续语音识别平台。该平台基于隐马尔科夫理论对声学模型进行训练。语音的特征参数使用感知线性预测系数(PLP),并结合了单音素到上下文相关的三音素HMM建模技术,再加上异方差线性判别分析(HLDA)以及音调(pitch),最终训练出声学模型。最后,结合基于3元文法的语言模型,构建出非特定人、大词汇量、汉语连续语音识别平台。实验的训练集共约16个小时,测试集共约4小时。整个语音数据库包含一万八千个句子,其中训练集大约一万四千五百个,测试集大约三千五百个。在该平台下,设计实验研究了高斯混合度对系统识别效果的影响,并利用不同的声学模型比较了不同的声学模型下系统的识别效果。实验结果表明本系统声学模型较为适合的高斯混合度为30,且采用基于决策树的三音素状态绑定模型能有效提高系统识别率。本论文通过对比实验得到的结论具有实际的指导意义。
其他文献
采用静电纺丝技术能够得到直径从几十纳米到几微米的连续的纳米纤维,是制备超细纤维的一种主要方法。纳米纤维具有直径小、比表面积大、孔隙率高等特点,因而具有广泛的应用,可作为组织工程支架及生物医用材料。论文将PLA纤维与丝素-明胶(不同质量比100:0、70:30、50:50)纤维进行复合,对静电纺PLA/丝素-明胶复合纤维的制备工艺、结构及性能进行了研究。首先,研究PLA的不同纺丝液、纺丝液质量分数、
大型工程车辆具有作业生产率高、单位土(石)方施工成本低的优点,然而由于大多数工程车辆在“非路面”上行驶作业,凹凸不平的地面对其(特别是履带式工程车辆)振动冲击十分剧烈,并且此
柔顺多稳态机构在其运动范围内具有多个稳定平衡位置,而且不需要能量的持续输入来维持这些稳定平衡位置,这种独特的性能使其在开关、阀门、继电器、空间可展开机构等领域获得诸
航天结构在轨运行时,会受到各种形式的干扰,如航天器对接引起的冲击载荷和瞬态热变形冲击等,而航天结构本身质量轻、柔性大且阻尼小,当出现外界干扰时,航天结构极易出现长时间的大
能源与环境是本世纪科学研究的两大主题,TiO2半导体光催化材料在解决环境污染与能源短缺方面表现出巨大的潜力,目前己经广泛应用于污染物深度净化处理,杀菌,光催化分解水制氢
服装作为中国重要的出口创汇行业,在当今严重的金融危机所带来的经济衰退背景下也正遭到前所未有的危机与挑战。立足于启动内需和消费是企业转型与保增长的根本性策略。如何扩
随着立井提升系统在矿山提升系统中的大量使用,立井提升系统随之成为矿山安全高效生产的核心部件。而立井系统中的过卷缓冲装置无疑对立井系统的安全可靠性提供了最后的保障
微课作为一种新的教学辅助技术带来的积极作用已经为广大教育工作者所认可.文章以“农作物的分布”为例,针对传统地理课教学中存在的问题,开发微课,创设教学情境,并从关注学
变速箱是汽车传动系统的重要组成部分,其结构对汽车的动力性、经济性、传动的平稳性与效率等都有直接的影响。而对于重型车,其装载质量大,使用条件复杂,人们则更加关注其变速箱产
目前,上肢残疾人的数量逐年增多,而使用不方便、仿生效果差的传统假肢已经不能满足失臂患者的生活及工作需求。随着科学技术的发展,一种以表面肌电信号作为控制源的智能假肢已成为研究热点。目前市场上采用阈值方法的肌电假肢存在控制不直观、灵活性差的缺陷,而采用模式识别方法的肌电假肢控制器还处于研究阶段,大部分还处于实验仿真状态,其中控制效果较好的模式识别控制器也存在便携性差、实用性差等不足,远未达到人们的期待
学位