论文部分内容阅读
语音是人们日常交流活动的最基本、也是最有效的一种方式。人们希望计算机能自动完成语音识别,因此语音识别技术的发展显得非常关键。随着计算机技术、互联网和人工智能的发展,网络中产生了大量的音频等数据,对语音识别的发展产生了很大作用。当今的关键词唤醒技术开始有了大量需求,其中的代表是以Siri为代表的个人数字助理以及亚马逊的智能音箱等设备,它们唤醒时用到的唤醒词检测就用到了语音关键词匹配技术。传统的语音关键词匹配多基于传统声学模型,以隐马尔可夫模型、高斯混合模型等为代表。现在的语音识别中大量用到了以深度学习为代表的神经网络模型。本课题针对语音关键词识别问题,对传统语音匹配技术和语音信号提取进行了研究,结合深度学习和相似度匹配算法等。 本课题的主要研究内容包括以下几个方面: 基于语音识别的语音关键词匹配模型研究。本课题以LSTM模型为基础,用CTC算法代替传统如均方误差(MSE)损失函数,比较有效地训练模型。该LSTM+CTC的框架,模型输入语音的梅尔倒频谱系数特征,经过长短时记忆网络和全连接网络输出识别的文本字符串,再利用相似度算法对识别出的两个字符串进行比较,得到匹配结果。 端到端的语音关键词匹配模型研究。端到端的模型不同于语音识别的模型,不将语音转为文本,使用特征提取网络训练得到特征图谱,再经过匹配网络比较语音之间的相似度。特征提取网络有机地结合了CLDNN和孪生神经网络,模型输入语谱图作为特征,在增加模型参数量较小的情况下,在语音关键词匹配的任务上对比CNN、LSTM等达到领先性能。 模型方法横向评测。通过实验论证了基于语音识别的模型使用模糊匹配和端到端的关键词匹配模型相对当前常用的CNN、LSTM、CLDNN等模型都表现良好。语音关键词匹配在实际应用中对负例要求敏感,基于语音识别的模型使用精确匹配时能达到100%的召回率,尽管其正例的效果很不理想,端对端的关键词匹配模型随着阈值的改变能保持95%左右的召回率。可见模型可以满足实际应用的要求。