基于文字描述的单目标视觉跟踪方法研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:e3e45r
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机视觉和自然语言处理是人工智能领域的研究热点,在实际的生产生活中有着广泛的应用,比如人脸识别、机器翻译等技术。随着深度神经网络研究的深入,尤其是卷积神经网络在计算机视觉领域以及循环神经网络在自然语言处理领域取得了重大的突破,很多结合计算机视觉以及自然语言处理的任务如视频语义描述等为人机交互提供了更多的可能性。近年来,结合了上述两种任务的基于文字描述的单目标跟踪任务,其研究也受到了广泛地关注,但是由于自然语言在描述视频时有着局限性,导致该任务的进展缓慢,本文提出一种基于文字描述约束的单目标跟踪算法并为之设计了训练方式。本文的主要研究内容如下:
  单目标跟踪任务需要根据第一帧中给定的目标,预测视频序列后续帧中的目标位置。然而自然语言可以描述目标在第一帧的初始状态,或者在整段视频中整体的运动状态。而且,带有文字标注的目标跟踪数据集通常描述目标在一段视频中目标整体的运动状态而忽略目标在特定帧中的状态,因此文字标注难以作为跟踪任务的全局约束。而且描述视频中每一帧中目标的状态不仅标注数据集的工作量大,且在实际生产生活中也无法实现。为解决上述问题,本文提出了基于循环神经网络的文字特征更新模块,利用深度视觉特征对编码后的文字特征进行更新,以期望目标在运动过程中发生位移、形变等变化后文字特征能相应地有所改变,以约束跟踪算法预测目标的位置。
  基于深度学习的单目标跟踪算法在训练阶段通常不考虑视频的时序问题,通过随机采样正负样本遍历训练集中的每一帧并组成批次进行训练。将文字描述作为全局约束的相关工作也可以采用上述的训练方式。采用基于循环神经网络的文字特征更新模块约束单目标跟踪任务需重新设计训练方式:将一段视频分割成长度相同的特定数量片段作为批次数据,采用每个片段的第一帧作为更新模块的输入,以期望改变作为循环神经网络隐状态的深度文字特征。本文在两个含有文字标注的单目标跟踪数据集LaSOT以及LingualOTB数据集上进行了充分实验,证明了本文所提出的文字特征更新模块能提升基于文字描述的单目标跟踪算法的精度。
其他文献
机器人柔性装配技术对于提高工业产品的生产质量和效率具有十分关键的作用,为装配行业自动化和智能化发展提供技术支撑。在形状不规则、材料多样的复杂零部件装配过程中,多个部件之间配合关系复杂、空间紧凑,接触状态多样,从而导致机器人装配作业过程模型复杂度高,且难以精确建模。因此,如何处理复杂零部件装配过程中的接触多样性、状态不确定性是机器人柔性装配过程中的重要问题。本文面向复杂零部件机器人柔性装配作业需求,
学位
自然界中众多陆生腿足动物因其高度的运动灵活性和崎岖地形适应能力给予人类诸多启发。近几十年来,世界各国研究者持续进行腿足式仿生移动机器人研究,包括仿生结构、运动机理、驱动方式、能量效率、感知技术等多个方面,以期实现非结构化环境下的物资运输、工程作业、野外勘探、救援救灾等任务,弥补轮式和履带式移动方式的不足。目前多足机器人主要有双足、四足、六足等拓扑结构形式,其中四足机器人因其兼具稳定性、灵活性和运动
切换系统可精准地描述工程实际问题中出现的多模态切换及多控制器切换现象,是控制领域关注的热点.在稳定性分析方面已取得了许多奠基性成果.现实世界中的系统都或多或少地存在着非线性特征,因此对非线性切换系统的研究具有重要的理论价值和实际意义.Port-ControlledHamilton(PCH)系统作为一类重要的非线性系统具有广泛的实用性.近30年来在镇定和H∞控制方面,取得了许多突破性进展,然而对于切
基于机器视觉的交通流估计研究一直都是智能交通领域的研究热点,是解决城市交通问题的关键技术之一,具有重要的理论意义和应用价值。面向复杂城市交通环境的交通流估计面临诸多挑战:城市交通场景车辆多而密集,且存在遮挡和小尺寸目标,增加了目标特征提取处理难度;城市交通场景复杂,基于单个目标的时空关联过程复杂耗时且精度较低,难以有效实时地进行交通流估计;基于交通视频的方法仅可输出交通流参数数据,而针对可视化的交
海洋场景感知是无人艇等海上无人装备有效完成各类既定任务的前提,而目标检测是场景感知与理解领域的基础性任务,提升海面目标检测算法的精度对提升无入水面艇的工作能力意义重大。近年来,基于深度学习的目标检测研究取得了突破性进展,在大规模标准库上取得了较好的检测识别效果。但常用的目标检测数据集中海面目标缺乏,导致目标检测模型在海洋场景中的泛化能力较弱。与此同时,由于海洋环境更加复杂多变,高质量海洋目标样本获
目前,腰椎间盘突出症的诊断依靠医生主观判断,诊断结果的准确性会受到医生经验及知识水平的限制和影响。因此,实现腰椎间盘突出症的自动诊断具有重要的意义。本文在阅读大量脊柱疾病诊断技术相关文献的基础上,研究并开发了一套基于深度学习的腰椎间盘突出症自动诊断系统。针对椎间盘退变程度、突出位置及大小,实现了Pfirrmann分级诊断模型和MSU分型诊断模型,并构建了腰椎间盘突出症自动诊断系统为患者及医生提供诊
机器人导航是机器人领域中一项重要的技术,广泛应用于自动驾驶、国防航天、物流配送、巡逻安检等各个领域当中。近年来人工智能技术的发展,尤其是深度学习和计算机视觉等技术的发展为该领域的研究发展带来了新的契机,众多工业和学术界的研究人员针对该领域开展了丰富的研究。  虽然目前该领域已经有了诸多经典的工作,但是一方面系统设计的复杂性,对数据样本的需求以及模型的可解释性一直是不同技术框架中难以平衡的问题。另一
学位
随着人类科技应用和探索自然步伐的进一步深入,对机器人的移动能力也提出了越来越高的要求,要求其能够在复杂的地形环境下自主运动。与轮式或履带式机器人相比,腿足式机器人具有克服障碍和适应复杂地形的能力,可作为多自由度的移动承载平台,在非结构化地形完成移动任务。本文以六足机器人作为研究对象,针对六足机器人在复杂环境下的移动控制问题,研究六足机器人系统的高适应性运动规划算法与控制方法框架,力求实现基座运动与
在计算机视觉领域中,动作识别一直是一个热门的研究问题。之前的动作识别主要基于视频数据,但近几年来随着深度传感器技术的发展,人体骨架数据变得容易获取,基于骨架数据的动作识别也逐渐成为一个重要的研究方向。骨架数据是人体动作的高维表征,其相比于视频数据有着数据量小、不受复杂背景与光照的干扰、鲁棒性强等优势。早期动作识别是动作识别任务的延伸,其不同之处在于早期动作识别需要在动作结束前识别出动作类型,从而能
车辆作为城市交通网络中的重要组成部分,成为当前智能交通系统内的重点研究对象。车辆重识别旨在对车辆身份进行识别,可以在大规模监控网络中搜索与指定车辆身份相同的车辆图像,对于交通治安人员搜索特定车辆、跨视图车辆跟踪和车辆行为分析等应用具有重要作用。当前车辆重识别研究主要基于道路监控相机进行,在地域限制和灵活性方面具有一定局限性,相比较之下,无人机机载相机平台由于具有极高的自由度,在车辆重识别领域具有重