【摘 要】
:
唇语识别是一种可以仅根据说话人的唇部运动状态中预测出说话人说话内容的技术,在计算机视觉和自然语言处理的交叉应用中具有极其重要的意义。比如在嘈杂环境中或远距离交流时唇语识别可以使用视觉信息预测说话人试图表达的内容,并可以与音频识别配合增强识别的准确率。唇语识别也可应用于音视频对齐,利用视觉特征与听觉特征的序列匹配实现对音视频的修正。另外,唇语识别还可以被应用于抵抗重放攻击的活体检测器,作为其他生物特
论文部分内容阅读
唇语识别是一种可以仅根据说话人的唇部运动状态中预测出说话人说话内容的技术,在计算机视觉和自然语言处理的交叉应用中具有极其重要的意义。比如在嘈杂环境中或远距离交流时唇语识别可以使用视觉信息预测说话人试图表达的内容,并可以与音频识别配合增强识别的准确率。唇语识别也可应用于音视频对齐,利用视觉特征与听觉特征的序列匹配实现对音视频的修正。另外,唇语识别还可以被应用于抵抗重放攻击的活体检测器,作为其他生物特征识别的有效补充。唇语识别的难点在于利用唇部运动的动态信息。传统的唇读方法大多直接使用自然语言处理中的序列模型(如LSTM,Transformer等)或音频识别中的训练损失(如时间联结分类损失)实现视觉特征序列到预测字符序列之间的映射,而这些方法并没有充分利用唇部运动的动态特征。并且由于模型的复杂性和冗余性,这些模型通常需要过长的训练时间,不能满足实际应用的需要。本文的主要研究内容是使用时序卷积作为序列到序列映射模型的基本组成元素,通过不同卷积核尺寸的组合构建一个健壮的序列映射模型。另外,本文还提出了时空信息融合模块用于在降低特征维度的同时保证对空间信息的充分应用。针对现有模型所需训练时间过长的问题,本文提出了局部自注意力机制通过屏蔽过长的时序依赖关系而加速模型的训练过程。为了验证模型的识别性能,本文在国际公开大型语料库GRID,LRW,LRS2-BBC和LRS3-TED等上进行了一系列的模块对比实验,并与多个目前最先进的方法进行了比较和分析。实验结果表明,本文方法在单词级别语料库GRID,LRW均优于其他方法,分别取得了98.3%和83.7%的单词准确率。在句子级别语料库LRS2-BBC和LRS3-TED上,本文方法在仅使用一半左右训练数据的情况下取得了与目前最优结果接近的准确率。此外,本文方法在相同硬件条件下所需要的训练时间远远少于其他方法。
其他文献
自然场景图像中的文本包含非常丰富的高级语义信息,对于场景的理解有着至关重要的作用。由于自然场景极具多样性,场景文本的检测与识别充满挑战,尽管在深度学习的推动下,其性能较传统方法已经有了显著的提升,但仍存在许多亟待解决的问题,是计算机视觉领域的一个热点问题。本文主要包含以下四个工作:(1)本文将文本检测视为一项密集回归任务,结合非局部神经网络嵌入了全局信息来扩大感受野,使其能够更好地应用于多方向文本
当前,中国面临着人口老龄化程度不断加深的问题,老年人口占全国总人口的比例持续增长。老年人的生活照顾、日常护理、健康保健等问题引起了越来越多人的关注,养老问题已经成为社会热点问题。近年来,在我国政策鼓励和扶持养老产业的背景下,实现养老服务智能化、信息化已经成为一种趋势。随着“大数据+”模式和相关技术的发展,智慧养老这一理念也逐渐兴起和普及。电动养老床系统基于电动推杆和控制设备,能够有效降低护理人员的
近年来,随着5G、IEEE 802.11p、LTE-V2X等无线通信技术逐渐成熟,节点具备在高速环境下低延时性、高可靠性传输信息的能力,车联网成为人们研究的热点。然而,车联网在帮助车辆感知路况、制定行车方案、规避风险的同时,其智能化、网联化的特点也存在一系列安全问题,诸如存在Sybil攻击、重放攻击、虚假消息攻击的风险。本文主要针对车联网中的身份认证问题和信任管理问题展开研究,主要工作如下:在车联
根据调查显示,我国人均耕地面积只有1.64亩,仅为世界水平的50.52%。耕地面积少,加之农作物生长异常会降低产量,并影响农民收入和农作物期货市场。为了及时获知农作物的异常情况,需采用高效的方式采集农作物长势信息。本文利用农作物异常生长时,叶表面温度异常变化的特性,通过无人机配备红外传感器,使用红外热成像技术检测植株冠层温度,预测农作物异常问题。尽管无人机搭载的红外摄像机能够高效地获得农作物冠层温
车联网是建设智慧交通的重要基础,在提升道路安全和提升通行效率方面具有极大的优势,然而,传统车联网的可扩展性较差,配置不够灵活,已经无法满足于新型车联网的发展需要。软件定义车联网架构的提出能够有效解决上述问题,即在车联网中引入软件定义网络(Software Defined Network,SDN)的思想,同时还为车联网带来了可编程性和可扩展性,满足了未来不断增长的车联网应用服务需求。SDN的引入带来
盾构隧道设计过程中需要考虑水压力的影响,因此明确水压力计算方法具有较为重要的工程价值。隧道设计时水压力的计算方法通常分为折减系数法、解析法、数值分析法三大类,本文对每类方法的研究进展和不足进行了归纳总结:折减系数法和解析法一般适用于稳定渗流的简单情况;数值计算法适用范围广,但可推广性不强;并建议后续对复杂条件下隧道衬砌外水压力计算方法进行深入的研究,以便更好地应用于实践中。
太原西山地区煤矿众多,煤炭开采时间长,产生的煤矸石占用了大量的土地资源。随着对西山地区生态环境的治理,部分煤矸石污染场地重新被用于工程建设。目前,大部分的对煤矸石的研究主要集中在煤矸石中的微量有毒有害元素释放以及这些有毒有害元素在土和水体中的富集,并未对受煤矸石污染前后土体的宏观物理力学性质、微观结构及污染机理进行研究。本文主要以太原西山矿区官地矿煤矸石及矸石堆周围黄土为研究对象,通过X荧光光谱分
近年来智能监控、人机交互、智能家居、自动驾驶等领域的发展对于人物及其行为的检测与跟踪的研究提出了需求。识别和跟踪人体的骨架结构是人物动作分析的重要基础,目标检测与跟踪技术也迎来了新的发展需求——人体姿态估计与跟踪。姿态估计要求准确识别和定位图像中人体骨架关键点的位置;姿态跟踪则是利用视频中前后帧的关系检测和跟踪视频中的人体关键点。本文主要研究在自主识别目标人物基础上的单人姿态估计与跟踪,即利用目标
为保障广州地铁某区间盾构隧道正穿上软下硬灰岩地层高速涵洞桩基过程中高速涵洞的安全,选取3种不同加固处理方案进行综合比选后,采取斜向旋喷桩+筏板+复合地基加固处理方案。利用三维有限元对桥梁桩基沉降进行计算预测分析,并与盾构掘进施工监测数据进行比对分析判断。理论计算分析及施工监测结果表明:1)多角度全方位旋喷加固地层可有效避让既有桩基;调整排泥量、控制地内压力及控制喷射注浆引起的地基隆起与下沉等成桩特
数字散斑干涉(DSPI,Digital Speckle Pattern Interferometry)作为一种全场非接触式光学测量技术,在物体形变、位移、振动等物理量测量方面具有广泛的应用。而散斑干涉图像处理作为数字散斑干涉测量的关键一环,对形变测量精度、测量量程具有重要影响,因此对散斑干涉图像处理技术的研究十分重要。本文介绍了数字散斑干涉形变测量基本原理以及散斑干涉图像处理基本方法,对散斑干涉图