基于3D CNN和注意力机制的手语识别方法研究

来源 :青岛科技大学 | 被引量 : 1次 | 上传用户:fgdWE4RTTY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频级的手语识别作为计算机视觉研究领域中的热点问题之一,被广泛关注。手语识别是一项高难度的挑战性课题,涉及计算机视觉、模式识别、视频采集和处理以及自然语言处理等多个研究领域。手语识别通过将采集到的手语视频数据进行处理,再翻译成文字或语音,促进听障人群和健听人之间的交流,对于维护社会和谐发展具有重要的意义。近年来深度学习技术的发展推动了手语识别领域的研究,但由于手语行为本身的灵活性和细节性以及较强的时序性要求,手语识别的精度仍然有待提高。本文通过对手语行为进行深入的分析,提出基于三维卷积网络和注意力机制的手语识别方法,并在手语数据集上进行了评估和验证,其主要研究内容和贡献如下:(1)针对手语识别的时序性要求以及在可区分性特征提取方面的困难,提出了基于三维残差卷积神经网络的手语孤立词识别方法,借助于三维卷积网络强大的自主学习能力,避免了人工设计特征,实现自适应学习。以手语RGB视频流作为输入,利用滑动窗口对视频流进行分段,通过三维卷积网络同时捕获时空特征,实现其手语分类,并验证了本方法的有效性。(2)针对手语识别过程中存在的细节复杂性和手语动作变化的不确定性,本文依据人眼视觉注意力的特点,重点设计了手型特征,提出基于RCNN目标检测网络的局部手语识别算法,该算法结合目标检测网络对手部区域进行局部检测与定位,并基于三维卷积网络进行手部序列的时序建模。实验表明,该模型有效捕获了作为手语核心要素的手部特征,优化了识别结果,尤其在识别复杂多变的手势动作上具有较好的效果。(3)基于上述两点,提出了一种基于弱监督特征编码网络AM-Res C3D的全局-局部手语识别方法,进行手语时空特征的提取与分类,在三维残差网络的基础上引入注意力模型,通过对整个手语视频进行时序建模,并对关键时间段的视频序列进行重点关注,采用端到端的注意力算法来进行不同时序特征的聚合,获得更优的手语特征,最终实现手语行为的精准预测。实验表明,该方法有效结合了不同层级的时序信息,提高了识别精度和泛化性能。
其他文献
潮汕文化是以传统文化为核心,融合海洋文化、外来文化为一体的特殊的地域文化。由于海洋民俗文化蕴含着丰富的潮汕海洋文化历史,具有重要的海洋历史文化价值,是潮汕海洋文化
<正>随着人们生活水平的提高,保健意识已经逐渐深入人心,保健食品亦应运而生。但是当前市场上有部分保健食品存在夸大宣传、混淆保健食品与药品概念等现象,一般人不具备药品
本文试图围绕中国的和平发展与和平崛起,就中国融入国际体制这样一个热点问题,从国际法律秩序的角度谈一点个人见解。从法律的角度考察,国际体制可以归结为国际法律秩序。当
案例指导制度是我国司法改革的重要内容之一,是维护我国法制稳定与统一的重要举措,对于提高司法效率,实现司法公正有着重要意义。然而,案例指导制度在制度构建上存在着指导性
近年来兴起的国家本体安全研究提供了理解身份与对外政策关系的新视角。本文旨在评介这一理论的基本逻辑,探索其理论价值与现实意义。基于身份稳定的本体安全是国家的需要,情
今文经学是清代的一个重要学术思潮和流派,至今仍是海内外学术界研究的话题,且在有关问题上存在着不同意见。美国著名汉学家艾尔曼教授对于清代今文经学复兴的原因有其独到的
施蛰存是中国现当代文学史上一位有着鲜明创作特色的作家,在文学史上,他同穆时英和刘呐鸥一同被归为"新感觉派"。但进一步的研究发现,施蛰存似乎并不完全属于"新感觉派",他与
随着经济建设速度的不断加快,我国的城市化建设内容越来越丰富。在城市的基础建设方面,公路建设和发展速度很快。公路是城市的重要交通线路,在人们的生活和工作占据着十分重
利用具有全消声环境的低速开口风洞研究了采用翼型尾缘刷毛来控制翼型噪声的方法,研究了不同迎角情况下不同长度和间距刷毛对翼型远声场气动噪声的影响以及翼型表面压力的影
<正>在驳斥了近年来出现的一些针对转基因产品的谣言后,寇建平表示,转基因问题不能跟已发生的食品安全事件混为一谈——"不管怎样,做好转基因安全管理,就是最好的应对"。转基