基于HMM的连续语音识别技术研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:Shimq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
进入二十一世纪,人工智能飞速发展,语音识别技术是人工智能的一个重要方面。随着软硬件技术的发展,连续语音识别技术已经取得很大进展。连续语音识别系统的性能与两个重要因素有关,一是语音识别模型,二是连续语音切分。对于语音识别模型,可以选取对时序信号有着较强处理能力的隐马尔可夫模型或者拥有自主学习能力的人工神经网络模型。本文对比分析了三种常用的语音识别模型,选取隐马尔可夫模型研究了汉语连续语音识别技术。连续语音的切分一直是语音识别技术的一个难点,在海量训练语音条件下,通过基于模型的切分方法能够在一定程度上实现连续语音切分;当训练语音不足时,汉语连续语音的切分就会存在很多问题。本文分析了汉语的发音特点和语音结构特征,利用语谱图和基音周期轨迹,研究了汉语连续语音的多级切分方法。全文的主要研究内容如下:(1)语音信号特征分析。对汉语连续语音识别来说,切分是一个难点。要想实现连续语音的切分,首先需要了解汉语语音信号的特点。本文分析了汉语语音信号在不同域的特性,着重利用语谱图分析了语音信号的频谱特征,利用倒谱特征获得了浊音信号的基音周期轨迹。(2)语音识别模型对比分析。本文研究了三种语音识别模型,分别是矢量量化、高斯混合模型和隐马尔可夫模型。利用现有实验语音库对三种语音识别模型进行了对比实验,分析各个模型的优缺点。(3)汉语连续语音多级切分方法。本文首先研究了基于时域特征参数的端点检测技术和基于倒谱的端点检测技术,分析了现有语音切分技术存在的不足。然后在分析汉语语音信号特征的基础上,利用相干分析、基音周期轨迹和语谱图灰度均值分析等技术,研究了汉语连续语音的多级切分方法。本文利用多级切分技术对麦克风信道下的连续汉语语音进行切分实验,切分准确率达到91%左右。相较于基于时域特征的切分方法和基于频域特征的切分方法,多级切分方法的准确率有着显著提升。
其他文献
<正>实践证明,支挡建筑物后填土在冻结过程中对建筑物将作用有水平冻胀力。这个力的作用是这类建筑产生变形和破坏的重要原因。水平冻胀力的研究,在国内还刚开始,国外有关这
本文全面介绍了中国著名的建筑雕塑艺术大师王熙民先生的主要作品的命名和它们坐落的地点及各自的风格特征.最后简要介绍了作者的生平与为人. This article gives a compreh
医学类专业实习教师是高等医学院校教师队伍的一个重要组成部分。实施医学类专业实习教师资格制度 ,是实习教师管理制度的创新 ,是建设一支兼有教师资格和医学类专业技术职务
目的观察益气固肾液对维持性血液透析患者炎症状态的影响。方法将72例维持性血液透析患者随机分为治疗组37例和对照组35例。两组均予普通碳酸氢盐透析液治疗,治疗组在普通碳
加热炉节能的有效途径是减少热损失。近几年,针对油田加热系统存在的加热炉热效率低,过剩空气系数较高,排烟温度高,燃烧不完全等问题,国内外各个油田都做了大量工作,以改善加
目的探讨音乐疗法对多发性硬化患者疲劳和睡眠障碍的疗效,以期为临床治疗提供参考依据。方法 56例多发性硬化患者分2组,对照组28例给予常规治疗,观察组28例在常规治疗基础上
近年来,中国互联网金融迅速发展,各种风险形式不断显现。分析了互联网金融发展现状及风险类型,对比国内外监管模式,旨在进一步规范完善互联网金融监管方式,促进行业健康发展
运用文献资料法、数理统计等方法,对29届奥运会男、女田径优秀运动员的身高进行了研究。研究表明:当今世界优秀田径运动员身高具有鲜明的项群特征,与26届奥运会相比,男子方面:
对联作为一种最为短小精悍的文体 ,有一般规则和特殊规则。一般规则有六条 ,它们是基本规则、普遍规则 ,违犯其中一条就不成其为对联 ;特殊规则是从汉字形体、声音、意义等特
当前,我们处于经济全球化和贸易自由化的时代,世界各国的跨境交流和国际贸易在全球化的推动下飞速发展。自由贸易港区以其较高的开放程度、优惠的税收制度等特点,被越来越多