论文部分内容阅读
近几年,智能终端的普及带动了智能家居行业的发展,同时伴随着人工神经网络理论的成熟,基于人工神经网络的深度学习为语音识别研究和应用提供了新的理论借鉴,因而将语音识别技术应用于家居控制系统使其更加智能化成为了可能。传统的语音识别技术主要采用的是模板匹配的方法,这种方法在孤立词的识别可以取得一定的效果,但是在大词汇连续语音的识别上,却难取得好的识别效果。由于神经网络可以模拟人类神经元的活动原理,具有较强的学习、联想、推理能力,所以基于深度学习的神经网络成为了目前语音识别研究的主要方向。本文详细介绍了语音识别和深度学习的基本原理,然后阐述如何将深度学习运用到语音识别中来提升识别系统的性能。1、研究了基于深度编码器改进的降噪栈式编码器传统的编码器采用的是三层网络结构也即输入层、隐含层、输出层,其中隐含层作为特征输出。在深度网络模型的理论基础上,对编码器进行改进,增加隐含层层数,使之达到5个,形成栈式编码器;同时为了使语音识别系统在真实环境中取得更好的效果,提升系统的鲁棒性,我们在第一个隐含层中引入噪声同时引入逐层贪婪训练算法,形成降噪栈式编码器。然后在MATLAB平台上搭建降噪栈式编码器模型,并对对降噪栈式编码器采用逐层贪婪算法进行训练,之后采用HTK语音开放平台对降噪栈式编码器模型提取出的语音特征与传统编码器的语音特征以及MFCC语音特征进行测试对比,实验结果证明了降噪栈式编码器提取出的特征值能够提升系统的识别率,进而提升系统的性能。2、基于深度学习的语音识别系统研究语音识别系统的设计中首先对控制系统的命令式的特性的进行分析,提出了基于动作(action)、对象(target)、操作(operation)模式的ATO语法模型。然后针对语音识别系统的各个模块进行研究和设计。声学基元采用根据汉语发音特色的声韵母基元配合音调进行建模;在对于声学模型的选择上,我们在对GMM-HMM和DNN-HMM进行对比分析后,得出,对于连续语音的识别,语音的数据量大,而DNN-HMM模型属于深度模型,对于复杂数据有着更好的拟合能力,因而选择DNN-HMM作为声学模型;最后对于解码器采用Token Passing Model算法的三层结构模型,最后在HTK上搭建语音识别器。从数据准备、声学模型的训练来搭建识别器。最后对识别器的性能进行评估并与传统的GMM-HMM模型进行对比,在识别率方面,达到了 66%的语句识别率,相比较GMM-HMM提升了 6.14%,证实了系统的可行性。3、智能家居中控制系统的语音控制器设计在语音识别系统研究的基础上,将其研究成果与智能家居控制的实际应用相结合,搭建语音控制器。设计语音控制器整体框架、系统流程,并对语音控制器进行性能测试,验证了语音控制器的可行性。