基于隐条件随机场的汉语语音识别声学模型研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:lhm136
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别是一种让计算机能听懂人说话,将人说的话转换成相应文字内容的技术,它提供了更加方便的人机交互方式,可以大大提高人们的效率,有着巨大的理论意义和实用价值。  随着近代计算机技术的飞速发展,孤立词语音识别系统已经取得了较高的识别准确率,非特定人、大词表、连续语音识别技术成为当前的研究热点。针对隐马尔可夫模型的不足,本论文研究了条件随机场和隐条件随机场模型,构建了连续语音识别中基于隐条件随机场的声学模型,并在此基础上加入了N-gram语言模型约束。  语音识别系统通常由声学模型和语言模型两部分组成,分别对应于语音信号到音节概率的计算和音节到字或词概率的计算。尽管基于隐马尔可夫框架的语音识别技术对现代语音识别做出了巨大的贡献,但隐马尔可夫模型本身存在着一些固有的局限性:一阶假设、独立性假设、训练准则导致声学模型之间可分离度差等,这些局限性限制了经典隐马尔可夫模型在语音识别系统中的实际应用。隐条件随机场模型作为一种统计和规则相结合的模型,允许特征非独立,允许增加各种不同形式的特征,并且有效地解决了标注偏置问题,能够很好地弥补隐马尔可夫模型的上述缺陷。此外,相对于条件随机场,其在结构上的调整能更好地描述语音信号的时变性,因此本文首次建立了基于隐条件随机场的汉语全音节声学模型,并通过实验对比了其与隐马尔可夫、条件随机场的识别性能。  语言模型主要分为基于规则的语言模型和基于统计的语言模型。其中,N-gram简单有效,被广泛使用。本文构建了Bigram和Trigram语言模型,并结合声学模型实现了一个汉语连续语音识别系统。  
其他文献
运动目标检测是图像处理与计算机视觉领域中一个非常活跃的分支。运动目标检测的结果包含了视频场景中的时空信息,反映了该视频流中主要的内容信息,在基于内容的视频分析、视
在计算机技术飞速发展的今天,信息已成为社会稳定和发展的重要战略资源,尤其在军队、企业和政府机构内部信息系统中,存有的敏感信息越来越多,信息安全显得至关重要。而移动介
回转窑是水泥制造工业中重要的生产设备,为了确保生产质量,对回转窑运行过程进行控制十分重要,其中窑内温度是非常关键的被控变量。出于其控制过程具有非线性、不稳定、时滞
本文在分析遗传算法(GA)在结构优化与参数优化方面的基础之上,提出基于遗传编程(GP)的结构参数混合优化方法,利用遗传编程的树形结构编码方式,分析了结构和参数协同优化对结
无线传感器网络(WSN)是随着微机电系统、传感器技术、无线通信和计算机网络技术的飞速发展而产生的,并以其低功耗、低成本、分布式和自组织的特点带来了信息感知界的一场变革
步态识别主要是通过人们走路的方式鉴别人的身份。步态识别具有远距离识别、非侵犯性和难以隐藏等优点,因而备受计算机视觉研究者的关注。首先,本文使用改进单高斯模型法重建
手势是一种自然而直观的交流手段,随着人机交互逐渐向以人为中心转移,基于视觉的手势识别研究也逐渐成为人们研究的热点。本文以智能教室的研究为背景,设计并实现了基于手势
天地通信监控中心是载人航天工程测控通信系统的重要组成部分,是在轨飞船及空间实验室中航天员与地面指挥系统间进行话音和图像通信的枢纽,负责整个通信过程中天地话音和图像的
本文研究了基于模糊逻辑的核电站检修机器人运动控制的方法。首先,简单介绍了核电站检修机器人的应用背景、现实意义,分析了核电站检修机器人的运动学问题,包括履带式移动平
20世纪90年代以来,生命科学研究取得了突破性的进展,随着人类基因组计划的开展与现代生物技术的发展,人类积累的大量生物信息数据为揭开生命奥秘提供了数据基础。序列分析成