基于深度学习的语音关键词匹配模型

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhouwei9471
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人们日常交流活动的最基本、也是最有效的一种方式。人们希望计算机能自动完成语音识别,因此语音识别技术的发展显得非常关键。随着计算机技术、互联网和人工智能的发展,网络中产生了大量的音频等数据,对语音识别的发展产生了很大作用。当今的关键词唤醒技术开始有了大量需求,其中的代表是以Siri为代表的个人数字助理以及亚马逊的智能音箱等设备,它们唤醒时用到的唤醒词检测就用到了语音关键词匹配技术。传统的语音关键词匹配多基于传统声学模型,以隐马尔可夫模型、高斯混合模型等为代表。现在的语音识别中大量用到了以深度学习为代表的神经网络模型。本课题针对语音关键词识别问题,对传统语音匹配技术和语音信号提取进行了研究,结合深度学习和相似度匹配算法等。  本课题的主要研究内容包括以下几个方面:  基于语音识别的语音关键词匹配模型研究。本课题以LSTM模型为基础,用CTC算法代替传统如均方误差(MSE)损失函数,比较有效地训练模型。该LSTM+CTC的框架,模型输入语音的梅尔倒频谱系数特征,经过长短时记忆网络和全连接网络输出识别的文本字符串,再利用相似度算法对识别出的两个字符串进行比较,得到匹配结果。  端到端的语音关键词匹配模型研究。端到端的模型不同于语音识别的模型,不将语音转为文本,使用特征提取网络训练得到特征图谱,再经过匹配网络比较语音之间的相似度。特征提取网络有机地结合了CLDNN和孪生神经网络,模型输入语谱图作为特征,在增加模型参数量较小的情况下,在语音关键词匹配的任务上对比CNN、LSTM等达到领先性能。  模型方法横向评测。通过实验论证了基于语音识别的模型使用模糊匹配和端到端的关键词匹配模型相对当前常用的CNN、LSTM、CLDNN等模型都表现良好。语音关键词匹配在实际应用中对负例要求敏感,基于语音识别的模型使用精确匹配时能达到100%的召回率,尽管其正例的效果很不理想,端对端的关键词匹配模型随着阈值的改变能保持95%左右的召回率。可见模型可以满足实际应用的要求。
其他文献
本文对民族地区高校网络教学设计与评价进行了研究。文章从建构主义学习理论入手,通过对传统教学模式与网络教学模式的比较,总结出网络教学模式所具有的开放性、自主性、协作性
近年来,通信市场的竞争由单一的价格战演变为形式多样的资费套餐业务的竞争。各大运营商纷纷推出各种资费套餐业务吸引用户。要想在竞争中取得有利的地位,套餐策略必须紧跟用户
学位
在竞争日益激烈的电信行业,高效利用各个独立、分布的业务系统在长期生产经营活动中积累沉淀下来的数据,是电信运营商正确制定营销策略,取得竞争优势的重要保证。然而,运营商独立
网络搜索的研究是当前计算机科学领域研究的热点与前沿,研究重点逐渐从原始的关键字搜索趋向于更加智能更加复杂的高级搜索,如实体搜索领域。在实体搜索中,输入为一个关键字或语
随着视频会议、VOD、大规模网络游戏以及文件共享等网络应用的广泛普及,Internet中引入了Multicast(组播)技术。目前的组播技术主要分为两种:IP组播、应用层组播。IP组播技术无
蚂蚁算法在求解二次分配问题(QAP)问题上已经取得了较好的结果,目前的研究集中在如何提高算法的性能上。提高算法的性能需要解决的重要问题是平衡两种趋势:纵向探测和横向搜
随着信息技术的发展和图像压缩标准的普及,在压缩域上进行基于内容的图像检索成为当前信息领域的研究热点。分形以迭代函数系统来表征图像特征,在图像压缩方面效果良好,同时
遗传疾病的致病基因预测问题一直是人类健康领域面临的重大挑战之一。随着人类基因组计划的顺利完成,各种生物数据得到快速增长,采用计算的方法从这些数据中挖掘基因与疾病之间
下一代网络(NextGenerationNetwork,NGN)的出现是电信网与计算机网络进一步融合的必然结果,基于IP的承载是NGN的必然要求。国际软交换联盟(ISC)的研究认为,软交换技术作为NGN的