基于深度学习的唇语识别模型压缩研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:fjfhmtv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
通过分析唇部动态识别出说话者的表达内容是唇语识别的基本目的,其在人机交互领域是广受关注的研究项目。由于传统唇语识别模型具有速度慢,训练难度大的特点,在基于不同场景的唇语识别技术上需要大量的人工设计与经验性处理。所以本文选择基于深度学习建立唇语识别模型,但是在资源紧凑的设备上,大部分性能优异的卷积神经网络都无法展示自己的高效识别能力。因此,卷积神经网络的压缩与加速成为众多学者的热门研究课题,经过网络压缩,可以降低模型对设备的计算和存储资源的使用率。其中,使用较多的方法是对网络进行剪枝,剪枝可以减小网络性能的损耗,通过设置判断标准有效去除参数,达到降低冗余信息的目的。本文提出基于结构化的网络压缩与加速方法用于卷积神经网络,融合剪枝后的卷积神经网络和循环神经网络并将其应用于唇语识别系统。本文具体工作内容如下:1、扩充自制的唇语数据集,对原视频进行关键帧提取与唇部区域的定位等预处理操作。首先对录制好的数据集视频进行半随机关键帧提取,将视频转为可以输入网络模型的静态图像。随后,使用MTCNN算法检测出人脸区域并对不正常角度的进行矫正,再应用Dlib人脸68关键点检测方法,通过唇部关键点精确定位嘴唇区域。2、网络模型压缩与加速是本文的主要部分。利用剪枝的方法对性能好但是模型参数量较大的VGG16网络进行压缩。本文提出基于结构化的通道剪枝方法,引入批量归一化层的调节参数,使其与网络通道权重联合训练的值作为剪枝的衡量标准,建立通道重要性排序,通过设置全局阈值对排序后的通道进行修剪,该方法利用了网络中存在的批量归一化层对网络具有提高性能和收敛性的特点。3、循环神经网络是在时间序列上的有向展开。本文利用循环神经网络来解决唇语视频抽帧后图像间存在的语义信息的问题,由于输入的唇语数据是时间序列图像,具有上下文语义,针对此现象循环神经网络可以解决时间序列的上下文特征提取。梯度不稳定是传统循环神经网络不可忽视的问题,本文选取双向长短时记忆网络(Bi LSTM)来学习唇动序列特征。在剪枝后的卷积神经网络完成特征提取后将其输入Bi LSTM中学习时序特征语义信息。4、最后将经过本文设计的剪枝后卷积神经网络和Bi LSTM融合的网络架构(Prune-VGG16+Bi LSTM),通过Softmax层输出识别出的唇语预测结果。将基于不同阈值剪枝后的网络与原网络的各方面性能进行对比,分析结果。
其他文献
机动性能对于移动机器人的应用往往具有关键意义,但现有的移动机器人机动性量化方法较为粗略。本文面向传统轮式移动机器人的机动性,提出了基于瞬时旋转中心的分布进行量化分析的方法,并在此基础上设计并实现了一款全轮转向轮式移动机器人实验平台。具体研究工作和结论如下:(1)对轮式移动机器人机动性定量描述的一般方法进行了分析,指出机动性除了与轮子配置相关外,与瞬时旋转中心分布范围、瞬时旋转中心位置切换快慢的能力
生物传感技术是当今社会的前沿科学技术,是集电子、生物、医疗、化学、物理、材料等多学科于一体的交叉综合性学科。生物传感器在环境监测、医疗健康、食品安全等各个领域都得到了高度重视及广泛应用。氮化镓的宽带隙和强化学硬度确保在高温、酸、碱等恶劣环境中可以稳定存在;同时AlGaN/GaN异质结通过极化效应形成高浓度、高迁移率的二维电子气(2DEG),2DEG的浓度对AlGaN/GaN异质结表面异常敏感,这种
目前行人检测技术已经被广泛应用在生活中的各种场景,其目的为对视频或图像中的行人进行分类与定位任务。但由于应用场景中干扰因素较多:主要为环境因素与人为因素。环境因素:跨场景的差异性,视频监控设备的水平高度与安装角度差异问题,白昼与黑夜的光线问题,天气的变化等因素。人为因素:行人的聚集特性,行人的外形差异。以上这些因素都是导致行人检测算法表现不佳的原因,而最突出的问题还是行人的聚集特性,伴随着行人的密
国内外研究发现将生物体非光滑表面织构形态应用于现代制造工艺中,能提升材料减摩耐磨性能。在刀具切削领域,选择合适形貌及参数的微织构制备于刀具表面,可以提升刀具切削性能,减缓刀具磨损。本文基于现有的刀具表面微织构研究成果,将微织构应用于超硬材料刀具,采用有限元仿真和车削实验的方法,综合研究微织构形貌及参数对刀具切削性能的影响,分析刀具表面微织构的减摩抗粘机理。本文主要研究内容如下:建立不同形貌的超硬材
铁路事业的飞速发展带来了日益繁密的铁路网络,列车的安全运行也显得尤为重要。列车在行车的过程中,偶尔会由于异物侵入铁路周界而被迫停运甚至引发巨大事故,这对人民的生命和财产安全造成了极大的威胁。因此,如何实现快速有效的铁路异物侵限检测、防止铁路交通事故的发生成为了研究热点。研究者们将深度学习和计算机视觉理论应用于铁路异物侵限检测,取得了丰富的研究成果。但该领域成果大多针对于白天RGB图像所得到,针对夜
近年来,教育行业涌现出一批旨在培养中小学生创造能力的校外教育机构。大多是照搬国外现成的机器人产品,再或是将国外已有的理论成果引进国内市场。优点是在国内传统教育模式中开辟了一条独特的道路。但大多理论薄弱,内容浅显,盈利至上。不难发现,现有关注中学生创新思维发展的相关文献甚少。并且在有限的相关文献中,大部分是基于教育学理论的角度着手,探讨如何通过提升教师能力或教育氛围的方法来促进我国素质教育,真切实际
在空间环境中,液态合金处于热力学亚稳态,这非常有助于研究深过冷熔体的材料结构和热物理性质。受限于成本技术等原因,研究者通过构建静电悬浮结合落管装置模拟空间环境,同时使用高速摄像机捕捉深过冷熔体的下落图像,以研究其熔凝过程。但由于图像获取设备曝光时间等硬件限制,拍摄到的深过冷熔体图像分辨率较低,不利于进一步研究其热物性和凝固界面等性质。使用超分辨重建等软件设计方式可以更准确重构图像轮廓信息,有效提升
缺陷的产生是光刻工艺中不可避免的,主要包括光刻材料的物理特性和工艺因素引入的各种缺陷,以及随着特征尺寸不断缩小而使实设计与制造不完全匹配引入的成像缺陷等,在一定程度制约着芯片制造业的发展。目前随着集成电路进入亚纳米技术节点,可识别的最小缺陷越来越精细,这给光学和电子束缺陷检测系统带来了挑战。缺陷是芯片良率的主要影响因素之一,本研究涉及的缺陷包括固体残留、坍塌、水渍污染。这些缺陷特征跨度大,对设备的
激光雷达能够采集场景的3D点云数据,可快速、准确的得到被测量物体的深度及重建目标物体的几何模型,而光学相机可对场景采集具有丰富细节的高清晰度2D可见光图像数据。激光点云与可见光图像的融合能够结合二者的优势,使只能表现物体轮廓的3D点云数据具有真实的颜色,大大提升可视性,在三维场景重建、环境交互等领域中发挥了重大作用,从而促进云景观、娱乐交互、自动驾驶以及无人设备等领域的发展。为了标定设备以及提高精
城市化进程的不断加快,使得城市用地越来越紧张,且随着大量工业化建筑的急剧增加,生态系统被破坏,环境恶化,能源短缺,城市公共空间缺失等问题随之出现,人类面临着严峻的生存危机。在此背景下,人们把追求生态环境效益作为城市设计的主要目标,巧妙的利用和顺应自然环境、与大自然密切联系着的覆土建筑逐渐成为推动生态建设的一股中坚力量。覆土建筑从古代的穴居到近代的窑洞,再到当代的公共建筑,其适用范围越来越大。因此,