论文部分内容阅读
随着人工智能技术的快速发展,传统人机交互手段的弊端逐渐暴露,人们对新交互产品的需求越发迫切。与此同时,大数据、涟漪效应和深度神经网络的发展带来了语音技术的大爆发,语音技术也进入了新纪元。将语音技术应用在交互手段中,开发语音交互系统成为新的研究热门。Kaldi是一个使用C++编写的全面向对象的工具包,由前微软公司研究院的Dan Povey博士与捷克的BUT大学联合开发。它功能强大,支持现阶段绝大部分主流模型、算法和数据,它开源的特性,方便我们第一时间获得新技术、新理念、新思路,它多平台兼容的特性很适合开发工作。本文研究了混合高斯隐马模型、神经网络隐马模型的建模、训练和解码,对模型中运用的算法、数据处理方式、进程加速技巧进行了深入分析;深入研究了Kaldi的源码,解析了其内部功能和实现机理,对基于Kaldi搭建的混合高斯隐马模型和神经网络进行了性能测试和对比,认识到神经网络隐马模型相对于混合高斯隐马模型的优越性,同时也认识到了其不足。针对神经网络训练中经常出现的由训练过拟合导致的训练时间过长问题,本文提出了一种新的函数作为激活函数,并利用Kaldi进行实验。实验证明该函数在解决梯度弥散问题上,取得了有效的成绩,训练时间得到了一定程度的降低。相信如果对该函数进行进一步研究和优化,可以降低神经网络训练对硬件的要求,推动神经网络技术的进一步发展。