基于深度学习的声纹识别语音唤醒系统的设计与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ydy611
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的飞速发展,市场上推出了各式各样的智能终端设备,智能语音的发展更是使得语音控制智能终端设备成为各大智能终端设备产品企业的主要技术研究方向,语音唤醒是智能终端设备和用户交互的入口,如何高效、准确地对用户的包含关键字的语音信号的输入给出反应成为这一技术的最重要的目标。而单纯的语音唤醒对的个人信息安全性缺乏保障,作为人机交互的入口需要加入身份验证声纹识别技术,声纹识别是用户对智能终端设备输入语音,通过算法来匹配声纹特征,而语音唤醒是指用户说出特定的语音指令时,设备从休眠状态切换到工作状态,给出指定响应。语音唤醒任务可以看成是一种小资源的关键字检测任务,其在计算资源和CPU占用空间小,因此其关键字检测系统框架与语音识别的系统框架有很大区别。声纹识别任务,通过字面了解到这是一种生物类识别技术的一种,也称为目标说话人识别模型,有两类即目标说话人辨认和目标说话人确认。本文的研究目的是基于深度学习的声纹识别语音唤醒系统的设计和实现,通过将声纹识别和语音唤醒进行了技术创新结合,并对深度神经网络架构进行对比择优,针对声纹识别准确率和语音唤醒的唤醒率提升,所做的主要工作如下:(1)参照端到端的模型架构,对声纹识别模块和语音唤醒模块采用的是分开训练,使得两个模型的准确率和唤醒率达到最优后进行整合,使得提升整个系统的准确率和交互效果。(2)在声纹识识别模块中利用端到端的匹配模型LSTM加DNN的组合,并在其中采用线性和非线性激活函数的结合,使得模型能够对语料有比较准确的匹配过程和较低的参数计算量。(3)在语音唤醒模块中使用端到端的Wave Net模型做语音唤醒的网络架构,其中的迁移学习和扩张卷积以及残差网络,优势在于利用语音识别的初始化参数和扩张卷积的较低参数计算量以及残差网络的剩余信息使输入的预料更好的时序性,整个网络能够保证对模型的低功耗小资源的要求。最后,通过模型网络选取上的对比实验,测试了声纹识别和语音唤醒模型以及网络选择不同的对比效果,本系统通过对声纹识别和语音唤醒两个模块对大量的中英平行语料进行训练,使得模型的准确率能够得到保障,能够准确地进行声纹识别到语音唤醒的准确率和唤醒率,通过对两个模型的整合从而实现了系统的初衷声纹识别语音唤醒。
其他文献
车道线检测是自动驾驶汽车或高级驾驶辅助系统的重要组成部分,利用安装在车辆前方的单目相机以实时成像的方式获取车辆在当前车道的横向偏移,从而为车辆的车道保持、超车换道
纯电动客车作为新能源公共运输工具,具有零排放、出行灵活、维护成本较低等优点,能有效缓解传统能源耗竭、环境污染、交通堵塞等问题。为进一步降低整车整备质量,提高续航里程,有必要对车身骨架进行轻量化设计,采用多材料组合使用车身是目前车辆实现轻量化的常见的思路,该方案面临的一个关键问题是异质材料的连接问题。为了给某纯电动客车高强度钢-铝混合车身的接头设计提供理论依据,本文基于摩擦搅拌盲铆接连接技术展开,研
作为一种方便、快捷的交通工具,轿车在人类生活的作用已经不可替代。选购轿车同选购其它商品一样,不必贪大求全,要按照自己的需要去选车,选购适用的车型和装置,方能充分享受驾车的
报纸
目的应用OCTA和眼底照相研究健康年轻成年的高度近视人群视盘形态学变化特征,以及其与视网膜、脉络膜厚度及血流的相关性方法纳入2020年6月-2020年8月于温州医科大学附属眼视
会议
目的研究单纯高度近视患者和低度近视患者早期视功能和视网膜及脉络膜厚度及血流之间的关系方法选取2020年6月-2020年8月于温州医科大学附属眼视光医院健康成年人患者共60例,
会议
《日用玻璃工业污染物排放标准》编制说明1项目背景1.1任务来源根据国家《"十一五"国家环境保护标准规划》(环发[2006]20号),为推进环境执法和监督管理工作实现科学化、法制
会议
拉曼光谱技术是一种快速无损的分析检测技术,拉曼光谱包含了丰富的物质分子结构信息。本文基于拉曼光谱技术在宝玉石领域的应用现状,进一步探究其在宝玉石定性鉴别和产地区分
烟叶田间成熟度作为影响烟叶品质的重要因素,仅靠烟农人工肉眼难以准确鉴别。为了实现在烟叶采收环节中准确地鉴别烟叶的成熟度,以下部烟叶为样本,基于图像处理技术对烟叶图
语音关键词检测技术是一种从输入语音中检测出指定关键词的设备唤醒技术,主要应用在智能音箱的唤醒模块中。近年来,随着移动互联网的快速发展,基于语音的交互技术开始得到普及,而作为语音识别的前端部分,语音唤醒直接关系到后续语音交互的效率和效果。其中,语音唤醒的核心技术就是语音关键词检测技术,语音关键词检测技术通过对输入语音进行识别,从而判断被检测语音是否为指定命令或目标命令。然而,语音交互技术和实际的应用
目前,临床医生对许多疾病的诊断都依赖于对医学图像的观察分析。然而,由于医学仪器本身成像质量的局限性以及临床医生在观察分析时的主观误差,会导致误诊或漏诊的现象发生。