论文部分内容阅读
进入二十一世纪,人工智能飞速发展,语音识别技术是人工智能的一个重要方面。随着软硬件技术的发展,连续语音识别技术已经取得很大进展。连续语音识别系统的性能与两个重要因素有关,一是语音识别模型,二是连续语音切分。对于语音识别模型,可以选取对时序信号有着较强处理能力的隐马尔可夫模型或者拥有自主学习能力的人工神经网络模型。本文对比分析了三种常用的语音识别模型,选取隐马尔可夫模型研究了汉语连续语音识别技术。连续语音的切分一直是语音识别技术的一个难点,在海量训练语音条件下,通过基于模型的切分方法能够在一定程度上实现连续语音切分;当训练语音不足时,汉语连续语音的切分就会存在很多问题。本文分析了汉语的发音特点和语音结构特征,利用语谱图和基音周期轨迹,研究了汉语连续语音的多级切分方法。全文的主要研究内容如下:(1)语音信号特征分析。对汉语连续语音识别来说,切分是一个难点。要想实现连续语音的切分,首先需要了解汉语语音信号的特点。本文分析了汉语语音信号在不同域的特性,着重利用语谱图分析了语音信号的频谱特征,利用倒谱特征获得了浊音信号的基音周期轨迹。(2)语音识别模型对比分析。本文研究了三种语音识别模型,分别是矢量量化、高斯混合模型和隐马尔可夫模型。利用现有实验语音库对三种语音识别模型进行了对比实验,分析各个模型的优缺点。(3)汉语连续语音多级切分方法。本文首先研究了基于时域特征参数的端点检测技术和基于倒谱的端点检测技术,分析了现有语音切分技术存在的不足。然后在分析汉语语音信号特征的基础上,利用相干分析、基音周期轨迹和语谱图灰度均值分析等技术,研究了汉语连续语音的多级切分方法。本文利用多级切分技术对麦克风信道下的连续汉语语音进行切分实验,切分准确率达到91%左右。相较于基于时域特征的切分方法和基于频域特征的切分方法,多级切分方法的准确率有着显著提升。