论文部分内容阅读
针对密集人群行为识别,结合传统计算机视觉和深度学习,提出一种双路3D Res-Inception网络结构。在二维卷积神经网络基础上扩展时间维度,设计一种时空残差单元用于提取时空特征,以此为基本单元设计融合人群的外观和运动特征的双路3D Res-Inception结构,并采用镜像、裁剪的方式扩增香港中文大学人群视频数据集(CUHK crowd dataset)。实验结果表明:数据扩增的方法适用于密集人群视频识别;与基于群体变迁的人群描述子算法、卷积神经网络-长短期记忆网络(CNN-LSTM)、三维卷积