【摘 要】
:
随着深度学习及与其相关的动作识别技术的兴起,电子设备在此过程中逐渐展现出其独特的功能性。目前,这已成为计算机视觉的主流研究方向之一,并且在人机交互领域彰显出巨大的潜力。然而,在实现过程中,可能会遇到与诸如计算代价和效率等相关的各项挑战。同时,人体动作识别又是一个极为复杂的领域,因为图像序列可能会包含一系列不属于特定动作的多样化特征。为了解决上述问题,本研究提出了一种基于DTA技术(Detect、T
论文部分内容阅读
随着深度学习及与其相关的动作识别技术的兴起,电子设备在此过程中逐渐展现出其独特的功能性。目前,这已成为计算机视觉的主流研究方向之一,并且在人机交互领域彰显出巨大的潜力。然而,在实现过程中,可能会遇到与诸如计算代价和效率等相关的各项挑战。同时,人体动作识别又是一个极为复杂的领域,因为图像序列可能会包含一系列不属于特定动作的多样化特征。为了解决上述问题,本研究提出了一种基于DTA技术(Detect、Track、Analyze)的创新性实现,用以满足与人体动作识别和定位相关的应用需求。受到当前流行的yolov3、deep-sort以及3D卷积神经网络的启发,本研究提出了一种新颖的体系架构。在该架构中,yolov3将与darknet-53一起使用以根据输入图像预测人的边框,并利用deep-sort算法来进一步实现人的发现与跟踪。最后,KTH数据集的ROI(Region of Interest)版本将被用于训练3D卷积神经网络模型,从而在追踪序列中识别人的动作特征。此外,本研究还将广泛讨论目标检测、目标跟踪以及人体动作识别等领域的传统与当下流行方法。为了对提出的方法进行彻底的测试,本研究设计并完成了多种不同的实验。本研究提出的模型是一种基于DTA框架的紧凑版本,以应用于人体动作的相关识别。该模型仅需使用单台摄像机,而无需多传感器之间的相互配合。具体而言,本模型将使用多个人类动作视频进行训练,之后,其跟踪的图片序列转发给训练后的神经网络,以预测具体的动作行为。本研究使用KTH训练集对模型进行了训练和测试,实验结果表明,本研究提出模型的估计误差和准确性均优于其它传统方法。特别地,由于本模型的逻辑较为简洁,同时拥有较高的计算效率,任何配备了摄像机和适当硬件的现代设备均可以采用这种方式进行人体动作的识别。结果表明,本研究所提出的方法在各个方面都优于当下的流行算法。视觉分析系统能够在10和13 FPS之间运行,而动作识别模型的精度为97.31%。
其他文献
随着近年移动设备搭载的摄像头个数持续增加,CMOS图像传感器的市场情况持续火热。虽然目前的图像处理技术已经有了很大的提高,但由于一些客观原因的存在,总会使得采集的原始图片中存在一些坏点,极大地影响了图片质量。因此本课题将对CMOS图像传感器的坏点校正问题展开研究。本文基于图像传感器中坏点的特性,采用先进行静态坏点校正再进行动态坏点校正的方式,对图片中可能存在的坏点进行处理。其中静态坏点校正处理3×
正电子发射断层成像技术(Positron Emission Tomography,PET)是目前分子水平上进行功能显像的最先进的医学影像技术,适用于脑部成像,心血管疾病,肿瘤等疾病的早期预警与诊断,在国内外受到高度关注和广泛应用。PET系统中事件处理是前端电路与图像重建的重要桥梁,直接影响成像效率和重建图像质量。脑部PET系统事件处理主要包含解码、延时校准以及符合等环节。对于PET系统,采集过程将
随着深度网络在各图片任务上取得巨大成功,越来越多研究将重心放在更为复杂的视频理解任务上。动作识别任务的目的是对视频中所有人的动作进行时空位置的捕捉以及动作的识别,是重要的视频理解任务之一。动作识别课题具有重大的科研以及应用价值。动作识别能够广泛地用于监控摄像头、自动驾驶、平台视频审核和商业化、人类行为学研究等领域。本文基于视频中存在的多种交互关系对动作识别课题进行研究。交互关系泛指视频中人和环境的
图像实例分割是一种非常重要的数字图像处理技术。近年在深度学习技术的推动下,该技术得到了飞速的发展,但仍然存在一些缺陷。在这个论文中,我们主要讨论两种改善优化图像实例分割结果的方法。第一个方法,是基于注意力机制的优化方法。图像实例分割方法虽然多种多样,但是对于小尺寸物体的实例分割还多存在着遗漏或误分割的情况。我们通过改进处理流程,将注意力机制应用于图像实例分割的处理流程中,以优化对于小尺寸物体的实例
大数据时代为诸多行业的变革提供了巨大推动力。为获取和处理更多数据,越来越多的技术被发明和应用,“万物互联”已成趋势。大多物联网数据同时具有时间和地点标签。近年来,大规模时空序列层出不穷。基于大数据对时空序列相关性和因果性进行挖掘,并据此进行推断和预测成为了大数据的重要应用之一。本文的研究内容为大规模低频时空序列的预测和大规模高频时空序列的模式识别,主要在大规模时空序列的模型上进行一些改进与尝试以便
由于疾病、创伤和老年化等原因造成的大范围骨缺损的修复与替代问题,是人类几个世纪以来不断深入研究的重要课题。然而迄今为止,临床上对大范围骨缺损的治疗仍是世界难题。利用骨科植入物来重建缺损部位骨组织的结构和功能是现代骨科学的主要治疗手段。近年来,3D打印技术的发展为骨科植入物的设计和制造带来了革命性变化。孔隙结构由于其可控的力学性能和优异的生物学特性,越来越多的应用于骨科植入物的设计中。三周期极小曲面
图像配准是一个寻找两幅或多幅图像的空间对应关系的过程,是一种应用广泛的核心图像处理技术。随着科学技术的快速发展与人民生活水平的提高,在医学图像配准领域,一方面,临床成像技术得到了发展,医学成像设备得到了推广与普及,涌现出了大量的含有丰富的结构或功能信息的图像数据,这给图像配准技术带来了极大的挑战。另一方面,图像配准技术也被应用到各种极具挑战的临床应用场景中,研究者们针对其应用场景提出了大量适用性的
近些年来,许多科研人员致力于电子设备创新交互方式的研究,并据此开发了众多人机交互应用。手势分类技术,作为人机交互方式中的重要一环,也逐渐成为了许多现实应用(如手势识别及可穿戴设备的视觉交互)的迫切需求,且应能适用于不同光照、背景等诸多环境。目前,许多现有的方法都能精确地识别手势,但是,在实际应用中依然存在着诸多的挑战,包括:环境的复杂性、不变量的不同性,例如处理时间、执行框架,以及系统的安全性、准
成像设备的抖动,元器件的噪声和图像编解码等都会导致图像退化。图像复原则是处理退化的图像,使其与原始图像更加接近。传统的图像复原方案有很多缺点,如计算时间过长,鲁棒性较差等等。近几年,基于神经网络的复原方法逐渐被提出,这种算法可以充分获取图像的先验知识,有效地提高图像处理速度,因此受到学者的广泛关注。然而现有的算法大多解决的是比较单一的图像降质问题。如在图像去模糊方面,仅解决人为制造的模糊核,而这类
心血管疾病日益成为世界首位死亡原因,治疗心血管疾病的投入很高。在防控心血管疾病上,平时的健康管理是必要的手段。由于防治指南无丰富、可操性的管控知识,但是健康网站上未经处理的管理知识也无法提供最有效的信息、可行性。不同来源的健康知识是否可靠,知识是否有理论依据,如何挖掘出更多的信息和科研方向均需要研究。因此如何将健康知识抽取关键信息、有效分类、挖掘并应用到实际中,是提高知识使用效率、指引科研方向等实