论文部分内容阅读
近年来,随着城市数字化进程的加快,视频监控已经进入了城市运转和人们的生活中。监控视频中出现的人及其行为信息能够为案件侦缉、智能安防和教育监督等多个领域的应用提供重要的数据支撑,但目前传统人工分析监控视频的精度和效率过于依赖工作者的经验和精力,并且无法在有限的人工基础上及时处理监控设备采集的海量视频数据。因此,如何通过计算机视觉技术高效地处理这些海量视频数据并准确地提取其中的信息是当前的研究热点。多目标行为识别是计算机视觉中依赖多种子任务的一项中高级任务,如何有效结合这些相关算法模型来实现多目标行为识别的功能,并且解决过程中的模型兼容性、特征浪费等问题以及如何满足实际应用的性能需求是研究的重点。针对上述问题和某药厂监控员工使用手机情况的实际需求,本文实现了一种非端到端的多目标行为识别算法,并且在此基础上对模型的结构和功能进行优化和合并,提出了一种端到端的多目标行为识别算法。本文主要内容如下:1.非端到端的多目标行为识别算法。针对目前行为识别研究大多基于视频中目标单一行为的局限性,结合YOLOv3目标检测算法、DeepSORT多目标跟踪算法和Pseudo-3D行为识别模型,在输入输出流水线上将三种算法模型有机结合,并且分别进行定制化优化,分步骤实现了一种非端到端的多目标行为识别算法,该算法在一定的硬件基础上满足准实时性应用的效率要求。2.端到端的多目标行为识别算法。针对非端到端的多目标行为识别算法的流程复杂性和重复特征提取造成的计算和空间资源浪费,本文基于特征共享的思想对Faster R-CNN进行3D卷积化改进,提出P3DRA(Pyramid 3D ROI Align)和TAN(Target Attention Network)来替代多目标跟踪算法,合并目标检测算法模型与行为识别模型实现了一种端到端的多目标行为识别算法,该算法较非端到端的多目标行为识别算法在不影响实际应用效果的情况下大幅提高了算法效率。3.系统实现与部署。在上述的算法工作基础上,结合多路视频流数据输入高并发的特性和违规行为检测功能高吞吐率的需求,本文利用Docker容器化引擎、Kubernetes分布式容器管理框架、TensorServing模型部署服务器和QtGUI设计平台,设计、实现并部署了一套包含视频监控系统中基本功能,并且能够检测出违规使用手机行为的具有稳定性、准实时性和可扩展性的视频违规行为检测系统。