面向语音辅助唇语识别的知识蒸馏

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xiaochouya87
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
唇语识别在日常生活中有着广阔的应用场景,例如在嘈杂的声学环境中辅助语音识别,方便聋哑人等残障人士进行交流,为黑白默片生成字幕等等。近年来,随着深度学习的蓬勃发展,唇语识别领域取得了许多重要的突破,但同时也蕴含着一些困难与挑战,例如相对于图像分类、神经机器翻译等任务,唇语识别的训练样本数量较少;唇部运动存在着固有的视觉模糊性,增加了模型提取鉴别性特征的难度。针对上述问题,本文提出了面向语音辅助唇语识别的知识蒸馏方法,以更好地提升唇语识别模型的性能。本文从三个方面的角度进行分析:第一,视频信号和音频信号具有关联性。对于同一段文字序列,两种不同模态的信号包含有相同部分的信息。第二,现有的语音识别数据集规模较大,且模型性能较好。第三,知识蒸馏方法可以将老师模型所学的知识传递给学生模型。因此,本文在输出空间上提出了3种不同粒度级别的知识蒸馏方法。具体的,在字符级别中,通过引入求解最长公共子序列的方式,有效缓解了语音识别模型解码序列与真实目标输出序列长度不一致的问题;在序列级别中,利用波束搜索解码的结果,将语音识别模型所学的上下文知识传递给唇语识别模型;在字符—序列混合级别中,将语音识别模型波束搜索解码的结果与真实目标输出序列结合起来,辅助唇语识别模型进行训练。此外,本文还考虑到对于相同的文字序列,视频信号和音频信号可以提供互补的信息。因此,本文在特征空间上提出了利用已训练好的语音识别模型,辅助唇语识别模型进行训练的知识蒸馏方法。特别的,本文分析了已有的LIBS方法的局限性,并提出了相应的优化方案——添加一项视频特征级别的知识蒸馏损失函数,从而增强了对于视频特征提取模块的约束。通过使用类似于注意力机制的对齐方式,解决了视频信号和音频信号长度不相等的问题,并且建立起两者之间的对应关系。通过一系列在英文唇语识别LRS2-BBC数据集上的实验结果分析,有效验证了本文所提出的面向语音辅助唇语识别的知识蒸馏方法,模型性能相对于基准的WAS方法均有所提升。
其他文献
脂肪对身体健康具有两面性。脂肪可以提供给人体必需脂肪酸,促进类胡萝卜素、脂溶性维生素的吸收,但过量摄入脂肪会导致体内脂质累积、水平升高,进而会引发一系列的疾病。研
快速原型增材制造技术可以快速制备出不同材料的复杂形状零件,缩短制造周期,节省材料,降低成本,增强产品竞争优势,特别有利于复杂形状、多品种、小批量零件的生产,具有广阔的
致密砂岩储层具有低孔隙度、低渗透率、孔隙结构复杂等特点,基于流体弹性参数构建的流体因子不能很好的满足储层预测对精度的要求。因此,寻找更高精度的流体因子是致密砂岩储
自动驾驶是智慧交通建设的重要一环,城市中自动驾驶汽车占比的提高有望缓解交通拥堵、提升出行效率、提高道路安全。自动驾驶技术所引发各种影响和变化都和公众的接受程度密
对称性是物理学里面一个非常重要的概念。诺特定理告诉我们物理系统如果有对称性的话,这样的一个对称性就会对应一个守恒定律。数学上而言,系统所有的对称性其实构成了一个对
背景:政府卫生投入是卫生筹资领域中公共筹资的重要内容,是实现一个国家或地区卫生筹资公平的基本手段;新医改以来,中国卫生总费用增长迅速,但同时加重了政府机构的负担,给政府带来了巨大压力;随着我国经济水平的迅速发展,居民物质生活水平得到显著提高,这对深化医药卫生体制改革又提出了新的挑战。目的:本文结合已有的研究成果,从L市政府卫生投入的现状出发,根据对医疗卫生机构问卷调查结果,对L市政府卫生投入效果进
股利政策调和公司经营者与投资者关系,对于公司的持续经营至关重要。不同的公司采用不同的现金股利政策,这些政策是基于什么考量制定的,会对利益相关者产生什么样的影响?这些
混合源采集技术旨在消除常规地震数据采集相邻震源之间地震记录不能出现混叠的限制,允许多个震源在较小的时间间隔内同时激发,因此极大地缩短了施工周期,提升了空间采样率,改
党的十九大报告明确指出“创新是引领发展的第一动力,是建设现代化经济体系的战略支撑[1]”。由此可见,积极发展创业企业,提高创业企业价值,是实现我国创新战略的重要途径。高级管理人员(以下简称高管)作为企业创新决策的制定者,其通过自身权力作用于各项经营决策,最终影响企业价值。在此背景下,探索创业板高管权力对企业价值的影响就显得十分紧迫,这对实现我国自主创新战略具有十分重要的意义。本文通过对企业价值、高
在工程实际中燃烧装置通常采用旋转湍流技术,利用其产生的中心回流区来稳定燃烧室中的火焰,同时也可促进燃料和氧化剂快速混合,达到提高燃烧效率和减少污染排放的目的。但是