【摘 要】
:
随着物联网、大数据和人工智能等技术的发展,视觉目标跟踪依然是计算机视觉领域热点研究方向,具有广泛的应用价值,如无人驾驶、智能监控、医疗诊断及行为分析等方面。视觉目标跟踪任务是在给定初始帧的目标位置信息的情况下,准确可靠地预测后续视频序列中目标的位置和大小。视觉目标跟踪过程中通常会面临许多挑战,如目标间遮挡、目标外观模糊、旋转及光照变化等,这些复杂的因素都对视觉目标跟踪算法的判别能力提出了更强的挑战
【基金项目】
:
国家自然科学基金(资助号:61772359,61872267,61701341); 2018年天津市新一代人工智能科技重大专项(资助号:18ZXZNGX00150); 2019年天津市新一代人工智能科技重大专项;
论文部分内容阅读
随着物联网、大数据和人工智能等技术的发展,视觉目标跟踪依然是计算机视觉领域热点研究方向,具有广泛的应用价值,如无人驾驶、智能监控、医疗诊断及行为分析等方面。视觉目标跟踪任务是在给定初始帧的目标位置信息的情况下,准确可靠地预测后续视频序列中目标的位置和大小。视觉目标跟踪过程中通常会面临许多挑战,如目标间遮挡、目标外观模糊、旋转及光照变化等,这些复杂的因素都对视觉目标跟踪算法的判别能力提出了更强的挑战。针对该科学问题,本文研究内容从以下两个方面展开:(1)针对根据单一响应图预测目标位置容易发生跟踪漂移的难点,本文选用基于卷积神经网络的回归模型作为视觉目标跟踪的基础框架,并提出创新的响应图融合方式,即双线性融合。这种卷积回归模型是对传统的相关滤波模型的改进,可以很容易地实现端对端的网络训练,因此本文选择在这种框架下改进算法。不同于简单的逐元素相加的融合方式,双线性融合的方法能够实现不同响应图之间的位置关联和信息交互,从而更加准确的根据响应图预测目标的位置,有效提高目标跟踪算法的鲁棒性。(2)基于所提出的视觉目标跟踪算法,本文进一步设计了一个视觉目标跟踪的用户交互原型系统。该系统包含参数调节模块、目标跟踪模块、统计结果显示模块以及任意一帧坐标显示模块。本文基于MATLAB平台设计了一个用户交互界面,将各个模块整合起来,形成了一个完整的原型系统,满足用户交互的需求,可以实现对目标跟踪算法的参数调节、实时观察目标跟踪状态、获取任意一帧目标的位置和大小以及视频序列准确率和速度的统计信息。
其他文献
自然语言处理技术已被广泛应用于很多领域,其中也包含对电影剧本的分析。近年来看电影成为人们常见的休闲娱乐方式,人们总是希望在看电影之前更多的了解电影内容,判断是否有自己感兴趣的片段,并且希望可以快速的定位到该片段。但目前常用的视频播放软件并不能满足人们这样的需求,不能进行片段的索引,在对片段进行定位的时候人们只能手动的快进或后退拉动进度条,有时候可能会错过自己想看的内容。因此,为了能让用户在比较短的
肿瘤转移是其高死亡率的关键。越来越多的学者开始关注肿瘤转移的研究,并在这一领域取得了令人满意的成果。乳腺癌是女性最常见的恶性肿瘤。它的高死亡率,主要是由于转移和复发造成的。侵袭性和非侵袭性乳腺癌患者需要不同的治疗方法,因此迫切需要预测工具来指导临床决策,以避免非侵袭性乳腺癌的过度治疗和侵袭性病例的治疗不足。测序时代的到来允许在分子水平上研究肿瘤转移,这对于了解肿瘤转移的分子机制、识别诊断标志物和治
在软件工程领域,学者们对代码克隆检测技术的研究从来未停止过。代码克隆检测的目的是为了找出软件系统中存在的克隆,通过分析克隆对软件质量的影响来利用有益克隆,同时对软件质量造成威胁的有害克隆进行规避或重构,从而提升软件系统的质量,提高软件人员的开发效率并减少软件维护成本。到目前为止,在克隆检测领域不同方法和技术的积累,主流检测技术分为基于代码语法结构的检测和非语法结构检测。基于非语法结构检测又分为基于
同步协同搜索系统是指支持两个或两个以上的具有类似信息需求的用户进行实时交互以执行协同搜索的系统。通常,同步协同搜索系统会提供一个社交引擎以允许同一组内的用户进行通信。但是,当社交引擎中的用户人数不足时,社交引擎就会遇到冷启动问题,无法很好地执行协同搜索。在本文中,我们提出了一种新颖的基于智能问答的同步协同搜索系统。我们在社交引擎中加入智能问答引擎Infobot以支持用户和搜索引擎之间的实时交互,同
相对基于光强、光谱等信息的传统光学成像与测量技术而言,偏振成像和偏振测量技术利用光的偏振特性获取目标场景的偏振信息实现多维尺度的目标识别与探测,是一种高效的光学探测、识别技术。特别地,偏振成像技术与数字处理技术相结合可有效解决传统光学在目标检测和识别领域无法解决的问题,拓宽偏振光学的研究领域和应用场景。在各类偏振成像系统中,基于分焦平面(Division of Focal Plane,DoFP)线
目前在工业生产和制造领域,大量的零件X光影像数据都是以实体胶片的形式存放,而不是数字影像,不仅导致管理成本的不断增高,且无法挖掘存在的数据价值,造成了巨大的浪费。随着生产的推进和发展有更多的X光实体胶片产生,给企业的数据存储以及管理带来了较高的成本以及资源浪费,且经实体胶片转化后的数字影像也无法得到有效的管理和利用。最近几十年以来,计算机技术及其应用的高速发展,工厂使用计算机进行数字化信息管理的优
随着定位、导航、轨迹分析和轨迹预测等基于位置服务(LBS)的广泛应用,越来越多的智能手机用户安装基于位置服务的APP,这类APP产生的位置数据能够为交通研究者带来大量信息。如今,基于位置的服务已经成为广大交通研究者不断研究和突破的技术课题,而智能手机产生的位置数据与电子地图的校准则成为这些技术的核心环节。利用智能手机获取位置信息有三种方式,分别为手机GPS、手机基站以及利用Wi-Fi进行定位。然而
逼真的声音传播效果可以提高虚拟现实系统的沉浸感和交互性,声音传播模拟技术现已成为计算机图形学领域的一个重要分支。目前计算机图形学领域的声音传播模拟技术较少甚至没有考虑水下声传播的特殊性,因此难以直接应用于水下场景。本文提出了一个针对水下特殊环境的声音传播模型。将水声学领域中适用于计算水下声场的简正波方法与计算机图形学中可以捕捉场景几何信息的射线跟踪方法进行耦合。同时基于阈值参数控制射线模型的切换以
自动检测出通过一扇门的人员的身份和移动方向对于日常生活中很多的场景都具有实际意义。例如,它可以帮助跟踪多个房间的中工人分布情况,更好地确定任务分配。然而,现有的解决方案通常需要在很多的限制下才能发挥很好的效果,这在很多工业工厂是很难满足的。例如,基于计算机视觉的解决方案需要摄像机和人脸之间的视线之间不被物体遮挡;而生物识别技术需要非常干净的指纹等特征才可以发挥不错的作用。在本文中,我们利用RFID
复杂多变的光照给计算机视觉领域的研究带来了许多挑战,特别是对于实时单目视觉定位与建图算法(SLAM)。近年来,SLAM系统在普通光照环境下已经可以完成精准的定位建图任务,但在弱光照环境或者阴影环境下,前沿的SLAM系统也往往因为其视觉前端光照鲁棒性不足而导致跟踪出现问题。对于弱光照环境下的SLAM视觉前端鲁棒性问题,本文首先通过改进现有的成熟SLAM系统的视觉前端,提出了一种基于双特征算法的图像特