基于能量轮廓特征及多任务学习的低资源开销个性化语音唤醒

来源 :刘泽远 | 被引量 : 0次 | 上传用户:qzjp16300
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今语音交互服务广泛应用于各类小型智能终端设备上,语音唤醒作为人机语音交互的前端处理技术,通过从输入的语音流中检测出关键词来唤醒设备,其需要长时间运行,因此保持低资源开销是其工作的必要条件。出于安全考虑,除了必要的关键词检测外,还需要对说话人身份进行确认,即个性化语音唤醒。本文主要就低资源开销的个性化语音唤醒方法展开研究。个性化语音唤醒模型的资源开销和预处理方法息息相关,好的预处理方法可以大幅减少模型的实际数据处理量。传统预处理方法主要滤除静音和噪声,若能再滤除部分非唤醒语音,将会节省更多的资源开销,因此本文提出了一种计算代价小的非唤醒语音过滤方法,其基于唤醒语音的能量轮廓特征分布构建统计模型,能滤除明显不属于此分布的非唤醒语音。过滤后,可将剩余的语音段输入关键词检测模型进行判别。考虑到该模型以词片为基元,单次输入为若干语音帧构成的词片级语音段,所以需要将过滤后的语音段切分成词片级片段。然而,使用传统固定小步长滑动窗切分方法,切分后相邻的语音段之间交叠较大,可能含义重复,导致关键词检测模型重复计算,进而浪费计算资源,因此提出了一种基于能量轮廓显著分隔点的语音切分方法,以更合理的步长来切分语音,使得片段数量更少,进而减少关键词检测模型的实际处理次数,以达到进一步降低资源开销的目的。另一方面,传统的个性化语音唤醒任务对关键词检测和说话人验证分别建模、独立优化,且大部分研究都集中于低资源开销的关键词任务建模,忽略了二者的任务关联性,具体体现为关键词检测可以为说话人验证排除非关键词语音,将其任务范围缩小为文本相关说话人验证,反之亦然。因此本文提出一种在多任务学习框架下以参数共享形式联合建模的方法,关键词模型和说话人模型互为正则化约束,而后以可学习的损失权重来平衡其训练过程。在维持原有识别性能的情况下,关键词网络参数量缩减了40%,节省了计算资源和存储资源。
其他文献
目的 探讨罗哌卡因髂筋膜神经阻滞复合右美托咪定对老年髋关节置换术患者认知功能的影响。方法 100例行髋关节置换术的老年患者随机分为两组,对照组给予罗哌卡因髂筋膜神经阻滞,观察组给予罗哌卡因髂筋膜神经阻滞复合右美托咪定,比较两组的麻醉效果。结果 观察组的术后VAS评分均低于对照组,术后MMSE评分均高于对照组(P <0.05)。结论 罗哌卡因髂筋膜神经阻滞复合右美托咪定有利于缓解老年髋关节置换术患者
期刊
聚羟基烷酸酯(PHAs)是一种由微生物生产的聚酯,具有替代传统塑料材料的潜在应用前景。甲烷氧化菌在养分供应不平衡时可积累PHB,PHB的理论合成产量为67%。近年来,基于其生物降解性和生物相容性的特性,对PHB产品的需求已经从最初的包装材料应用扩展到工业和农业应用以及生物医学和制药部门。关于甲烷氧化菌PHB合成的研究大多数是利用混菌发酵,而针对纯菌产PHB研究较少。因此本文探索了以甲烷为碳源,从实
学位
随着通信技术、自动化等技术的快速发展与不断创新,现代设备的复杂度急速上升。设备的子系统数量众多,系统之间功能连接紧密,连接结构复杂,故障模式复杂多样,传统的计划维修已经难以满足复杂设备的保养及健康管理需求,确保设备的正常安全工作已经逐渐成为一个系统性的问题。随着故障预测与健康管理技术(Prognostic and Health Management,简称PHM)的发展,为设备的高效故障预测和降低维
学位
随着无线电用户数量的急剧增长以及敌方干扰技术的快速发展,高频地波雷达所工作的电磁环境中存在无线电广播、敌方干扰机等多种干扰,频谱拥堵问题十分严重,这使得雷达系统很难在工作频段内找到一段较宽且连续的可用频带。为了满足距离分辨率的需求,雷达系统通常需要使用几段不连续的频带合成大带宽。然而这会使信号的自相关旁瓣性能受到严重破坏。因此,本课题对低旁瓣非连续谱信号的优化设计展开研究。本文基于相位编码信号分别
学位
桥梁支座病害时常发生,如内部滑板磨损、位移超限、支座板锈蚀等。支座病害隐蔽性强,维修成本高,并且严重影响桥梁结构的安全性。因此,利用桥梁监测数据建立支座可靠性评估方法,为既有桥梁的安全运营提供可靠保障具有重要工程意义。已有研究表明,桥梁温度场与支座纵向位移具有良好的线性关系,本文通过监测数据分析、相关性分析、损伤评估分析和试验验证分析,提出了一种球型钢支座纵向滑移性能评估方法,可用于对钢桁梁桥滑动
学位
烟雾的强后向散射严重限制了光学成像性能,单光子激光雷达(Gm-APD)在透雾成像方面具有高灵敏度、时间分辨率高等优势,但利用传统的信号提取算法在烟雾环境下进行目标重构存在较大误差。针对此问题,本文在信号与图像两个层面对Gm-APD激光雷达对烟雾后向散射抑制算法进行了研究:在信号层面,对描述后向散射光子分布的Gamma模型进行了推导,建立了Gamma分布模型中μ和k两参数的关系公式;设计了双参量估计
学位
癫痫是一种十分常见的神经类疾病,临床上需要医护人员肉眼观察来检测,但是该过程耗时且费力,因此癫痫的自动检测研究具有重要意义。通过头皮脑电信号来检测癫痫发作是一种安全便捷的检测手段。然而,以往的研究中忽视了各个脑区之间的神经电活动传递,很少将重点放在脑功能网络的构建与分析上,因此构建一个可以显示脑区之间连接强度的脑网络对于理解癫痫发作时的大脑生理规律十分重要。此外,现有的脑电特征研究局限于时域和频域
学位
近年来,随着人们消费水平的不断提升,包装消费量和包装废弃物不断增加,由此带来了诸如自然资源消耗、环境污染、温室气体排放等一系列环境与生态问题。本文以欧盟最新发布的包装及包装废弃物条例提案为切入点,梳理分析了中欧包装及包装废弃物管理法律、政策与标准的研究进展,以期为未来我国制定包装及包装废弃物管理政策与标准提供参考。
期刊
随着人工智能、移动通信等技术的发展,在移动终端下执行高计算复杂度任务的需求越来越大,这会严重影响移动终端的续航能力与用户的体验。移动边缘计算的发展使得移动终端可以借助边缘服务器的计算能力来执行任务:用户所需的服务合理的部署到边缘服务器,移动终端将任务卸载至边缘服务器,通过边端协同的方式来执行任务,以加快任务的执行并且降低移动终端的能耗。本文首先对自适应的计算卸载策略进行了研究。基于班组协作的场景,
学位
在国际化、大众化的教育背景下,教育培训企业为了能够可持续发展,面临着新的改革、升级和创新。而教育培训行业市场红火,就业机会增多,行业间的人才竞争拉动了人才流动。正因为如此,教育培训行业人才流失问题引起了企业管理者越来越多的重视。成立于2008年的S教育培训公司,从2016年开始,员工离职频繁,离职率逐年递增,人员流失越来越严重。截止到2019年底离职率达到了 45.44%。这给S公司管理层和人力资
学位