深度神经网络在中文语音识别系统中的实现

被引量 : 36次 | 上传用户:lizhongfeng3218
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
GMM-HMM声学模型在语音识别技术中取得了巨大的成功,但随着语音数据量的增加,数据的复杂性也越来越大,训练时间也越来越长。同时,由于高斯混合模型(Gaussian Mixture Model,简称GMM)是一个浅层模型,在复杂数据上的构建模型能力明显存在着不足,需要找到一种对数据建模能力更强的声学建模方法,而深度神经网络在声学模型建模上就具备了这种能力。此外,在特征提取方面,梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficients,简称MFCC)是一种在语音识别过程广泛使用的特征,但由于其计算时进行了去相关或者降维处理,势必造成部分信息的丢失。所以,本文还实验了对数域的Mel滤波器的输出为声学特征,即Filter-bank特征(简称Fbank), Fbank特征包含有更多的语音信息可用于之后的训练。本文完成了一个中文深度神经网络模型语音识别系统,主要工作包括:(1)搭建Kaldi语音识别系统开发平台,编译源代码,配置运行环境,安装CUDA并行计算架构,使用GPU加速深度神经网络训练过程;(2)在中文DNN语音识别系统开发平台上训练单音子模型,并在此模型上优化训练三音子模型,以三音子模型为基础训练和测试中文深度神经网络模型识别性能;(3)进行声学特征实验,对分别使用MFCC特征和Fbank特征的DNN模型进行训练解码;对滤波器组加密处理,提取不同维度的Fbank特征,用于训练DNN模型;滤波器组相同的情况下,增加Fbank特征帧数,用于训练DNN模型。实验结果显示:DNN模型在有限语音训练数据条件下的词错率WER (Word Error Rate)与传统GMM模型相比有12.05%的绝对降低(28.02%降至15.97%)以及43%的相对降低;采用Fbank特征与MFCC特征的DNN模型的词错率WER相比有0.86%的绝对降低(15.97%降至15.11%)以及5.38%的相对降低;Fbank特征进行滤波器组加密处理训练DNN模型的词错率WER的最好结果为14.87%;Fbank特征帧数增加训练DNN模型的词错率WER最好结果为14.33%。实验结果表明:深度神经网络模型能有效提升中文语音识别率;Fbank特征与MFCC特征相比更适合深度神经网络模型的训练;在一定范围内对Fbank特征进行滤波器组加密处理能够提升中文语音识别率;保证Fbank特征滤波器组相同的情况下,在一定范围内帧数增加可以提升中文语音识别率。
其他文献
肾癌是泌尿系统中第三大肿瘤,全球范围内每年约有120,000例患者死于肾癌,并且有显著增加的趋势。肾细胞癌是成年人肾癌的最主要的类型,约占全部肾癌的90%,是肾癌发病率和死亡率主
从文献上看,语篇分析既没有公认的理论指导,也没有公认的分析步骤和分析方法。我们认为,系统功能语法是一种比其他理论更适合于语篇分析的理论,本文把用这一理论作指导的语篇
本研究通过语料库手段对比国内一套中学英语教材和两套国际英语教材,考察教材对英语动词‘do’的虚化用法的呈现情况。调查发现,与相应的国际英语教材相比,该国内中学英语教
职业体育贿赂行为是伴随着我国职业体育的发展而产生的一种新型的贿赂现象。在目前我国的职业体育领域,贿赂行为严重的影响着我国职业体育的健康发展。但刑法条文在规制职业
脊髓损伤是一种很难治愈、后果严重的中枢神经系统损伤。学者们对脊髓损伤的病因及机制进行了大量的临床与基础研究。人们发现,除原发性脊髓损伤外,原发性脊髓损伤之后的继发性
本文系统地研究了分级时效工艺参数对2195Al-Li合金硬度和低温拉伸性能的影响,通过对拉伸断口的SEM观察,探讨了常温、低温拉伸断裂行为,并对固溶时效态样品进行了较为系统的T
作为18世纪的道德哲学家,休谟与同时代的思想家共同面临着一个棘手但却必须要解决的任务,即寻找新的道德根据,为道德规范的正确性和合理性提供证明和辩护。本文以休谟道德思想为
听成晓芳老师的声音,是一个多月前的事,想采访她当头的山西省合唱协会爱乐合唱团,电话那头的声音清脆、圆润、有力;见到成晓芳老师,是在一个月后的山西省歌舞剧院演出大厅,爱
随着现代科技的发展,人们所接触的磁场越来越多,因此,磁场对人体所产生的影响也受到了公众的日益关注。虽然目前人们对于手机和高压输电线等所产生的射频和工频磁场对人体的
自从1996年世界上第一款即时通讯软件ICQ问世以来,即时通讯软件已经在世界范围内得到了普及,在我国更是成为了互联网的第一大应用。经过了十几年的发展,虽然各种即时通讯软件