基于LFMMI的两级唤醒词检测研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:kenkenson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,伴随着各种语音助手的出现,语音唤醒技术备受关注。通过唤醒词来激活设备,一方面可以解放人类的双手,另一方面可以使得设备不用持续处于工作状态,节省不必要的计算资源浪费,也是对用户隐私的一种有效保护。在深度学习算法的介入下,让系统对指定唤醒词具有非常高的召回率并非难事。由于在设备上的计算资源和内存空间非常有限,加之在实用场景中环境复杂,要让系统对指定的唤醒词具有快速、精准的检出能力,同时对于虚警有着足够的抑制能力才是最具挑战性的。另外,目前大多语音唤醒算法非常依赖唤醒词数据。语音数据获取困难,指定的唤醒词数据更是稀缺,一般需要根据特定的需求去录制收集,且一旦唤醒词需要修改,带来的数据重新录制和模型重新训练的工作非常繁重。针对这些问题,本文对基于关键词-垃圾模型的唤醒词检测,以及其后的二级分类器进行研究,主要内容如下:(1)引入语音识别中的低帧率技术和序列鉴别性训练,在不依赖于唤醒词数据的情况下,构建基于非词格依赖的最大化互信息准则(Lattice-free Maximize Mutual Information,LFMMI)的唤醒词检测系统,相比普通的基于隐马尔科夫模型-深度神经网络混合模型(Hidden Markov Model-Deep Neural Network,HMM-DNN)的唤醒词检测系统,在近场和远场条件下整体识别性能大大提高,解码速度约为其3.34倍,同时保持99%以上的唤醒词召回率。(2)为了以极低的代价换取强大的虚警抑制能力,本文以基于LFMMI的唤醒词检测系统为一级检测系统,并在其后添加一个轻量的二级深度神经网络(Deep Neural Network,DNN)分类器。在依赖唤醒词数据的情况下,从一级系统的解码器输出中,提取有效的信息,探索设计了三种精简的二级特征作为分类器的输入,分别是音素时长特征、音素声学确信度和音素声学似然差异。实验结果说明:两级系统相比原来的一级系统,对唤醒词的召回率下降约0.35%,但是对于虚警的抑制能力大大增强,误触发下降了近69倍。与最优的以音素匹配分数为二级特征的两级唤醒词检测系统相比,在唤醒词检出能力和虚警抑制能力上是可比拟的,但在识别速度和二级特征的精简度上则是本文系统更优。这部分的工作已经在广州视源电子科技股份有限公司得到验证和落地应用。(3)为了让唤醒词检测系统彻底摆脱对唤醒词数据的依赖,本文探索设计了从通用数据集中抽取有用信息并提取适合二级DNN分类器训练的正样本的特征,从而使得二级DNN分类器训练不再依赖唤醒词数据。实验的最终结果显示:在不依赖唤醒词数据的情况下,相比原来的一级系统,两级系统整体误触发下降了近125倍,而唤醒词召回率仅下降约2.19%。
其他文献
本文采用一元及多元线性回归方法以及具有强非线性表达能力的自适应偏最小二乘回归法将中国气象科学研究院和国家气象中心共同研发的MM5-CMAQ准业务空气质量预报系统预报的20
广泛应用于电动汽车储能系统的锂离子电池性能与安全性受温度影响显著。常规运作时,温度不得超过55℃,极端滥用情况下,温度不得超过120℃。否则,高温会导致电池性能衰减,寿命
新中国成立初期,面临着严峻的治安形势。在以毛泽东同志为核心的第一代中央领导集体的正确领导下,全党动员,充分发动人民群众,采取大规模群众运动的模式实行了包括镇压反革命、禁毒、禁娼、禁赌、改造罪犯等几项主要警政措施,在短期内取得了镇压反革命、扫清旧社会的污泥浊水、初步成功改造罪犯等辉煌成就;迅速稳定了社会大局,化消极因素为积极因素,形成了空前安定团结的社会秩序;为新中国各项事业建设创造了良好的环境,树
随着机器人技术的发展以及多学科技术的融合,智能移动机器人已经渗透到人类生产和生活的各个方面。移动搬运机器人作为一种智能移动机器人,可以代替人类完成更多复杂危险的工作,解放了劳动力,应用前景广阔。尽管如此,移动搬运机器人仍存在定位精度低、路径规划效果不佳以及价格昂贵等缺点。因此,研究并改善移动搬运机器人的定位以及路径规划技术具有重要意义。基于室内移动搬运机器人的工作需求,设计了以STM32为主控芯片
草地作为全球最常见的植被类型之一,在维护全球生态安全、防止沙漠化及涵养水源等方面具有十分重要的作用。准确获取草地空间分布信息不仅具有十分重要的生态环境意义,还有助
陕北黄土区是我国生态环境极度脆弱的区域之一,沙棘因其良好的生理生态特性已被大量应用于该区域退化生态系统的重建中。因此明晰影响沙棘林下植被特征的主导因素和沙棘最佳
草原是我国重要的生态资源和生态屏障,但近些年,受自然和人为活动的影响,我国草原生态系统正面临着利用方式不合理、生态压力不断加剧等一系列严重问题。而基于多智能体的计算机仿真技术能够对草原区可能发生的牧民、牧户和政府行为进行模拟预测,以此发现草原系统中存在的问题并采取对应的防范措施,近年来已经成为当前学术界共同关注的热点领域。用多智能体仿真可以模拟和预测草原土地在复杂性、非线性和交互性等多种影响因素下
我国草地面积大、类型丰富,是重要的家畜生产和生态安全区域。在长期粗放的生产经营模式下,我国草地畜牧业生产经营处于长期落后状况,草地生态退化得不到有效缓解。家庭牧场
党的十九大报告提出"加快推进体育强国建设",习近平总书记明确要求要"精心谋划,狠抓落实,不断开创我国体育事业发展新局面,加快把我国建设成为体育强国"[1]。体育强国建设离
利用2007年1月至2010年6月CMAQ(Community Multiscale Air Quality Model)模式预报产品和福州市大气污染物的观测资料以及常规地面气象观测资料,根据动力-统计相结合的预报方