基于卷积循环神经网络的连续手语识别研究

来源 :西安工业大学 | 被引量 : 0次 | 上传用户:txj8u5yhb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
为解决听障人群沟通需求日益增长与手语普及率低之间的矛盾,以及用户体验需求的便捷性与智能设备功能的复杂性之间的矛盾,本文借助深度神经网络对人机交互领域的连续手语语句识别问题展开研究,主要研究工作包括:
  (1)提出了一种基于区域-卷积神经网络(Region-Convolutional Neural Networks,R-CNN)算法与伽马变换相结合的手部区域分割算法。R-CNN用于检测彩色图像中的目标手部区域,伽马变换用于定位对应深度图像中的手型区域目标,将两者相结合用于手型图像的分割,以减轻复杂背景等与手语表达无关因素的干扰,克服传统手型图像分割算法人为主观因素对分割效果的影响。
  (2)建立了一种基于双路改进型AlexNet网络的连续手语特征提取及基元孤立手语词识别框架。借助连续语句与组成句子的相应基元孤立词间的结构关系,结合多模态数据间的互补性能,解决了由于手臂运动轨迹复杂,手型存在变化快、形变大以及遮挡等问题带来的设计区分性手语表征的困难;并基于聚类算法对连续手语语句中的关键片段进行了筛选,有效减少了冗余信息干扰下的计算量和资源消耗问题;最后,综合考虑网络模型的容纳能力以及自建数据集的复杂程度,在基础硬件资源受限的情况下,对卷积神经网络(Convolutional Neural Networks,CNN)的经典网络结构AlexNet进行了改进,以降低网络模型较为苛刻的硬件要求,提高训练效率。该模型首先基于组成连续手语语句的基元孤立手语词进行预训练,之后对网络进行微调,将连续手语语句关键视频帧片段输入网络,通过对手语视频动作时空特征的自动捕获,网络输出的特征向量序列即表示为连续手语语句视频的表征;
  (3)设计了一种基于分层注意力网络的连续手语识别算法。在得到连续手语特征序列之后,结合中国连续手语语句通常由基元孤立手语词汇作为构建块,孤立词由视频图像帧组合而成的结构属性,对循环神经网络(Recurrent Neural Networks,RNN)编解码通用架构进行扩展,构建了包含两个编码器(第一层为片段编码器,第二层为词编码器)和一个解码器的网络模型实现了序列到序列的映射关系,绕过了连续手语语句的时序分割难题,避免了连续手语语句中每个孤立词汇标注耗时的缺陷,并引入注意力机制用于关联不同关键帧片段与对应手语动作含义的权重因子,在此基础上完成了连续手语识别系统搭建和性能测试工作。
其他文献
随着5G通信技术的快速发展,基于位置信息的服务(Location-Based Services,LBS)已成为5G时代物联网技术发展与应用的重要组成部分。经过长期的理论研究和工程实践,室外环境下的定位技术已日趋完善,可以满足人或设备的日常定位需求。然而室内定位技术目前尚不成熟,没有形成统一的技术标准,有着巨大的发展空间和商业潜力。  论文从室内定位的实际需求,通过对现有室内定位技术的分析对比,选择
学位
正交频分复用(Orthogonal Frequency Division Multiplexing OFDM),作为一种多载波调制技术,将其应用于可见光通信(Visible Light Communication,VLC)中可有效解决发光二极管(Light Emitting Diode,LED)窄调制带宽及系统由于多径效应引起的码间干扰(Inter Symbol Interference,ISI)
传感器技术和通信技术的迅速发展为实时连续捕获、收集和传输人体运动状态信息提供了便利,在此基础上,利用近年来研究深入的人工智能和神经网络技术可以对采集到的信息进行人体姿态识别,有助于计算机全面深入理解人体行为模式、运动过程以及动作含义,甚至可以对将来可能发生的动作进行预判,在智能安全监控、物联网、人机交互等领域具有广泛的应用价值。  针对传统单视角监控容易产生遮挡以及动作识别速率低等缺点,提出使用两
近年来,随着城市化进程的迅速发展,因城市交通路网密度增大而导致的一系列交通问题日益严重,同时因交通拥堵而带来的经济损失也非常巨大,如何有效显著地解决城市交通问题,缓解交通压力是当前研究的重点方向。由于城市交通信号控制系统的复杂性、多变性和不确定性,传统的交通信号配时方法不能很好地进行调整以适应动态的交通环境。当今社会随着科技的进步,人工智能技术得以快速地发展,智能交通自适应控制系统成为了当前主要的
随着信息化、智能化的发展,陆战场中信息感知的重要性也逐渐提高。而现代战争中经常会受到电子干扰的影响,使得光学观察设备成为了较为稳定的目标监视与侦察的手段。但在陆战场中目标可能会被不断遮挡,仅通过人力进行监视效率较低,因此目标跟踪技术由此引入。  相关滤波跟踪算法在目标跟踪领域中不论是鲁棒性还是精度均能够处于领先的地位。虽然相关滤波算法具有高鲁棒性,但对于复杂遮挡场景中进行目标跟踪依然存在较多问题。
学位
高炮系统在零飞工作状态下的动态跟踪瞄准误差是武器验收的一项重要指标,目前国内外靶场测试中普遍使用零飞仪来测量该指标,在测试过程中,零飞仪用来传输图像数据的光纤线缆随着炮管转动,容易造成磨损和断裂,给测量带来不便从而影响图像传输。为了解决此问题,研究了一种适用于无线传输的实时图像压缩系统。主要研究内容包括:  首先,分析了零飞仪的基本结构、工作原理和测试过程,并对测试试验中的视频序列图像进行仿真,得
学位
惯性导航系统作为一门新兴高科技产业,在军事、工业产品、国民新兴经济领域都得到了广泛的应用。但其自主式导航的系统特性使导航过程中产生的误差不能依靠外界信息得到修正,从而降低导航系统精度。研究发现,惯性组件作为惯性导航系统的参数测量单元,其性能优劣直接制约导航系统精度,因此,在目前制造工艺水平有限的情况下,如何优化惯性组件性能,进而提高惯性系统导航精度是国内外相关领域的科研热点。本文主要研究基于系统辨
复杂环境下的目标识别技术是引信近感探测的难点问题。脉冲激光作为一种主动探测手段,通过发射、接收激光束,对接收信号适当处理后与发射信号进行比较,可获得目标的相关信息,从而对飞机、导弹、坦克等目标进行探测及识别。对比无线电、磁及红外探测,激光在探测过程中更不容易受主动电磁干扰,但对复杂的战场自然环境,如云雾、烟尘环境,可能会使激光引信在探测的过程中误把干扰因子识别为目标,造成虚警。因此,研究激光引信在
学位
人体目标检测与跟踪技术是当今社会的主要研究方向和流行趋势。由于人体作为非刚体的代表,相关技术应用到行人方面具有重要的研究价值,而且某些目标与人体目标对象可能具有相似的外形,不利于对人体多目标的检测与跟踪,使目标人体对象的特征提取变得极为困难。因此,对不同应用场景和平台下的多目标人体特征进行有效的检测与跟踪具有深远的应用潜力。  针对不同平台、场景和传统算法对人体多目标检测率低的问题,本文在残差网络
学位
在空空对抗的毁伤效能评估体系中,由于弹丸炸点位置依赖引信接收到的目标反射回波能量大小,目标的博弈性根据炸点位置的变化随机改变,使多发引信炸点与敌目标之间具有博弈对抗关系,双方攻防对抗特性的探索使近炸毁伤这一领域的研究更贴合现代战场的发展方向。国内对于这一方面的研究较少,很难系统的给出破片式战斗部对目标毁伤的数学模型和此过程的可视化模拟仿真。因此,研究不确定目标姿态、不确定炸点位置、不确定破片场空间
学位