【摘 要】
:
手语视频翻译技术是一种将手语视频翻译成文字的方法,不仅可以解决聋哑人群体和正常人交流的问题,也能打破不同国度和不同语种间的手语界限,实现不同人群的有效交流。同时,由
论文部分内容阅读
手语视频翻译技术是一种将手语视频翻译成文字的方法,不仅可以解决聋哑人群体和正常人交流的问题,也能打破不同国度和不同语种间的手语界限,实现不同人群的有效交流。同时,由于以深度学习为代表的人工智能技术正在快速进步,不断地向贴近大众生活的方向发展,因此基于深度学习技术的手语视频翻译研究正成为研究者争相研究的热点。本文基于时域卷积网络(Temporal Convolution Network,TCN)和双路门控单元(Bidirectional Gated Recurrent Unit,BGRU)提出了 一种双路并行的时序学习模型。该时序学习模型一方面利用TCN来捕获短时的局部相关性信息,另一方面利用BGRU来捕获长时的上下文信息,从而充分利用视频帧之间的时序信息。在将两路网络进行后端融合后,利用级联时序分类(Connectionist Temporal Classification,CTC)函数对来整个时序学习模型进行端到端的训练。该模型在德国手语天气数据集上较单一的TCN或BGRU较好值相比,降低了 0.3%的词错率,有效验证了本方法的合理性。此外,本文针对手语视频中监督信息不足(视频片段和标签无法精确对齐)问题,基于最大期望算法(Expectation-Maximization Algorithm,EM)的思想,提出了一种基于伪标签的监督学习的手语翻译方法,即伪监督学习。该方法首先用预训练的3D-ResNet提取手语视频的神经网络特征,采用了 BGRU与CTC进行端到端的优化并使用CTC解码生成伪标签;再用伪标签与对应的视频片段进行特征优化的监督学习,交替特征优化和CTC时序解码学习两个阶段直到模型收敛。基于伪标签监督学习的手语翻译方法在德国手语天气数据集上取得了 40.9%的词错率,验证了方法的有效性。
其他文献
本次翻译实践选材来自于Michael Wasserman(迈克尔·沃瑟曼)于2016年出版的The Business of Geriatrics(《老年医学事业》)(Chapter 10-13)。该文本用词考究,句子结构丰富多变,源文通过严谨的句子关系用以说明老年医学的现状及对比如今与过去医疗模式的差异,并指出如今要建立适合人们需求的协调服务的养老模式。在案例分析中,译者根据文本的特点,对英语状语
首先,面向柔索驱动式主动柔性针穿刺机器人的任务需求,对柔性针穿刺机器人进行了机构原理设计。对自由度是否合理进行分解,将复杂的5自由度机构简单化。阐述了位姿调整的原理
当今社会,矿山安全问题是国家关注的重点问题,防止安全生产过程中各种事故的发生是安全生产最重要的任务。本文利用国家安全部门网站发布的权威事故信息,利用现代科学手段,充
近年来,柔性压力传感受到越来越高的关注度,各种具有高灵敏度、准确性和快速响应速度的压力传感器应运而生,并被广泛应用于可穿戴器件、柔性机器人、个性化医疗以及智能家居
偏微分方程常用于模拟复杂的动态系统,而方程中的参数通常具有特殊的实际意义,特别是热传导方程中的参数,比如物体的导热系数、热扩散系数等,由于热传导方程的参数估计是一种
1-Bit压缩感知问题考虑从信号测量的符号恢复原始的稀疏信号,由于获得的信息损失了信号的模长,因此无法直接通过测量矩阵和测量信息精确恢复原始信号.1-Bit压缩感知采用求解
近年来云计算等新兴技术迅速崛起,随之带给数据中心的是巨大的网络流量压力,传统网络架构难以对流量进行高效地调度,以至于无法满足其上应用对于性能的需求。软件定义网络(So
随着经济的发展和城市化的推进,共享单车逐渐成为一种广泛使用的交通工具。在共享单车大行其道的同时,人们也愈发关注其安全隐患问题。如何维持共享单车的动态平衡将成为提升
基因(DNA上具有遗传效应的片段)与疾病密切相关,除外伤、过度饥饿外,几乎所有的疾病都可以通过基因检测出风险,并可进行疾病的预警与针对性干预,从而有针对性地主动改善自己
目的:探讨哮喘患者基线痰中IL-1β表达水平及其与治疗反应之间的关联,研究IL-1β在支气管哮喘患者上皮细胞间充质转化中的作用和机制。方法:共纳入51名有成功诱导出足量诱导痰炎症细胞且未治疗的哮喘患者和29名健康对照,收集其一般资料、肺功能检查结果、血常规结果、血清总Ig E结果、Fe NO、哮喘症状评分以及用药情况;收集受试者诱导痰、外周血标本,检测基线水平诱导痰中细胞分类、炎症因子RNA和蛋白