基于深度学习的唤醒词识别方法研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:soso2009520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音唤醒技术在智能音响、智能车载、服务机器人和智能家居等场景中有广泛的应用。它可以从多个方向对目标设备进行触发,并且它避免了设备长期处于工作状态,满足了低功耗的需求,减少了隐私泄露问题。基于深度神经网络(Deep Neural Network,DNN)的唤醒词识别方法已经取得一定的进展,并在特定场景中得到一定的应用。由于DNN本身的局限性,它没有考虑语音信号之间的相关性,使得它的误唤醒率比较高,准确率比较低,在非触发状态,设备却被唤醒,给用户带来了不好的体验;并且它的参数量比较大,这往往难以满足移动设备的要求。基于长短时记忆神经网络的唤醒词识别方法,其无法利用语谱图中时间和频域两个维度的内在联系,而且其计算量大、训练时间长,对计算能力要求较高。为了解决上述问题,本文主要研究基于深度学习的唤醒词识别方法,所做的主要工作如下:(1)研究了基于简单循环单元(Simple Recurrent Unit,SRU)的唤醒词识别方法。在该方法中,SRU模型对提取的梅尔倒谱系数特征进行训练,该模型在计算重置门和遗忘门时,采用完全丢弃的方法,去除了对上一时刻隐层状态的依赖,并且调整遗忘门和重置门的计算顺序,提高了并行化计算的能力,最后通过线性激活和Softmax函数生成唤醒词识别的概率。该唤醒词识别的方法缩短了模型训练时间,并且减少了模型的参数量,提高了模型的准确率,提高了模型的召回率。(2)研究了基于注意力机制的卷积循环网络的唤醒词识别方法。该方法将卷积神经网络(Convolutional Neural Network,CNN)和SRU网络结合组成CSRU网络,利用CNN捕捉局部信息的能力,利用SRU的时序建模能力,在小参数量下,提高了模型的准确率和综合评价指标。在此基础上,为了进一步提高模型的准确率,降低模型的误唤醒率,研究了基于注意力机制的CSRU的唤醒词识别方法,它主要由编码器和注意力机制组成,编码器使用CSRU网络,使用软注意力机制对CSRU编码器的输出特征加权,通过线性变换和Softmax函数生成唤醒词识别的概率。该方法提高了模型的准确率,降低了模型的误唤醒率。
其他文献
研究目的:对江苏省体育高考生自我控制和应对方式的现状进行调查,了解体育高考生自我控制和应对方式的基本特征,并进一步探明体育高考生自我控制与应对方式之间的关系,从提升体育高考生自我控制能力的角度,促进其应对技能发展,从而为解决体育高考生在生活、学习上的各种问题提供研究基础。研究对象与方法:选取江苏省2018年扬州大学考点体育高考生作为本次研究的调查对象。采用《中学生自我控制能力问卷》和《中学生应对方
<正>12月7日~8日,2018《南海学刊》年会在海南澄迈顺利召开。年会由海南省委宣传部指导,海南省社科联(社科院)和海南出版社主办。年会的主题是"改革开放40年与新时代社科期刊
<正>构建名师工作室是大势所趋,是客观环境的硬性要求,是上级主管部门的明确指示,还是学校全面发展、现实生存的需要。在名师工作室的具体运行过程中,需要把握三个关键点:关
随着铁路事业的飞速发展,铁路的客货运业务量与日剧增,各种结算方式应运而生,铁路收入管理中的债权债务规模和种类也在逐渐增加。加强铁路运输企业收入管理中的债权债务管理
本文通过马尔科夫链模型来预测不同宣传策略下消费者群体变动情况,进而得出其宣传收益变动状况,以此来分析厂商的宣传策略。
景观建筑小品是城市公共空间不可或缺的一部分,满足使用者的基本服务需求,给人视觉带来美的感受,也产生了人与环境的互动关系。设计师应该发掘小品建筑的公共属性,积极的景观
城市一旦发生地震等自然灾害,如果没有有效的灾害应急管理,对城市可能造成毁灭性的灾难。本文研究了在考虑避难需求变化情况下的城市应急避难场所布局规划问题,以期增强城市
通过对全省不同土壤类型1105个耕层土壤样本的调查分析,明确了全省土壤交换性钙含量平均为7.72g/kg土,最低0.24g/kg土,最高28.84g/kg土,不同土类交换性钙含量依次为潮土>砂姜黑土>褐土>盐土>粗骨土>棕壤。分析了不同
一、引言有效课堂教学的影响因素指影响课堂教学活动进行并促成课堂教学达到取得预期教学效果的因素。课堂教学是在特定的教学环境下,教师通过教学、以及学生通过学习而掌握教
本文主要介绍了白三叶的栽培与管理技术特点,供各位读者参考。