基于多模态信息的行为识别与凝视追踪方法

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:haojianhong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能产品及互联网的迅速发展,网络中充斥着大量良莠不齐的数据,而在这些数据中,视频占据了主要部分,若能够利用智能算法对视频数据进行自动识别,尤其是识别视频中的人类行为,就可以针对视频内容进行有效的监控,进而对视频中涉及的危险行为进行识别并预警或过滤。另一方面,在对视频内容进行监控时,只能基于已经发生的行为进行识别与分类,无法推断视频中人类的意图,而分析人类意图对于行为的识别与预测都具有至关重要的作用,但如何用计算机来模拟人类的这一能力仍是一个难题。若能利用计算机模拟人类的凝视追踪能力,对识别不完整视频的行为将会有很大的帮助。在目前的行为识别任务中,如何充分有效的利用行为表象信息和行为动态性信息是提升行为识别精度的两个决定性因素。行为表象信息往往通过在视频帧上进行稀疏采样来获取,而行为动态性信息大多利用光流场来描述,但目前的大部分方法在网络构建中都忽略了二者的潜在关联,导致二者并未真正的互补。针对这一问题,本文提出三流结构来获取更丰富的行为信息。每一个流结构采取不同类型的数据进行输入,利用采样后的RGB帧描述行为表象信息,利用一组按照通道维度叠加的光流场描述行为的动态信息,利用动态图描述行为的时空交互信息,其中,动态图指的是在RGB帧序列上做排序池化得到的结果图。三流结构能够分别捕获视频序列中不同模态的行为信息,实现对行为更好的建模。本文在UCF101数据集上进行了丰富的实验,验证了不同的网络作为基本骨架所达到的准确率,并与其他的一些流行方法进行比较。实验结果表明本文中提出的三流结构相比于一些其他的算法捕获了行为更加丰富的特征,从而得到了更好的识别效果。现存的凝视追踪方法将这一任务分解为两个子任务:具有显著性的物体区域检测以及人物凝视方向估计。这一类的方法可以检测出人物凝视方向内的显著物体,但忽略了人与场景、人与物、物与物之间的关联性信息,因此会导致小物体被忽略,大物体更容易被判断为凝视物体,从而无法很好的处理复杂场景下的数据。针对这一问题,本文提出一种三流网络结构,分别获取图像中的显著性物体、人物的凝视方向估计以及图像中目标与场景之间的相关性。显著流中采用原始的RGB图像作为输入,凝视流中采用人物的头部图像以及头部坐标作为输入,关联性流中采用图像中各个目标物体之间的空间位置关系矩阵作为输入,三个流结构最后的输出结果均为一个包含了特征信息的一维向量。本文在Gaze Follow数据集上进行了大量的实验,通过对比实验验证了关联性对于场景理解的重要性,并与其他的方法以及人类的凝视能力进行了比较,通过4个量化指标验证了网络结构的有效性。实验结果表明本文中的三流结构可以更好的处理复杂场景下的凝视追踪任务。
其他文献
目前IC产业正值快速发展中,芯片研发的重要性不言而喻。但是我国的芯片产业的研发面临缺乏自主知识产权的问题,这种情况下发展本土芯片行业显得困难重重。由伯克利团队研发的开源指令集架构RISC-V(Reduced Instruction Set Computer-Five)由于其开放性和先进性,受到了广泛的关注。基于RISC-V指令集CPU的自主研发也已经成为一种必然的新趋势,为我们实现芯片的自主研发打
心电图(electrocardiogram,ECG)是能反映心脏跳动的波形图,它应用在医院的心电图检查,并用来检查心脏的健康状况。在现在的网络时代,因生物特征识别技术逐步走向成熟,国内外众多研究学者对身份识别技术的研究也逐步深入,目前其技术已在人脸识别、眼膜识别、语音识别等多个领域有所使用,并趋于商业化。而且,相当多的技术研究者也投身到了 ECG信号身份辨认研究当中。但目前针对于ECG信号身份识别
多足爬壁机器人作为移动机器人的一个分支,以其独特的运动方式和不同环境的适应性,一直以来都受到国内外研究学者的关注。近些年多足爬壁机器人依靠其优秀的壁面适应性和运动灵活性从军事运用领域逐渐转向工业运用领域。但是其复杂的腿部结构和腿部运动所导致的控制难度成为广泛应用的一大障碍。为了满足一些特殊工业领域对多足爬壁机器人运行的水平姿态要求,本文设计了一种拥有三关节回转伸缩机械腿的新型爬壁机器人,可以保持运
随着互联网和信息技术的飞速发展,人类社会正步入大数据时代。海量的信息通过互联网发布和传播,其中非结构化的文本数据是互联网信息的重要载体和呈现形式。因此,高效、精准地管理和挖掘文本信息,并快速提取有价值、感兴趣的高质量信息具有重要意义。文本分类是管理海量文本信息的一种有效方法,能够使分类后的信息结构更清晰、内容更聚合。因此,文本分类技术已成为机器学习和自然语言处理领域的研究热点和难点之一。且主题模型
企业建立虚拟社区的目的在于通过用户间互动交流和问题解答来节约企业的产品服务成本,获取消费者的产品创意和共创知识资源,从而提高企业的创新能力,为企业带来价值。企业虚
随着社会的发展,企业间的并购、投资或者采购等商业往来越来越频繁。对于买方来说,这些商业往来存在着各种各样的风险。比如:签署合作合同以后,主要的员工、供应商以及客户是否会留下;目标企业过去的财务报表是否准确。所以,买方必须通过一定的方法来弥补买卖双方在信息上的不对称,从而进行风险管理。尽职调查,指的是买方对目标企业的资产负债情况、经营和财务状况、法律关系以及目标企业所面临的机会和潜在的风险进行的一系
近年来,海量数据产生,算法发展和计算速度提升推动了人工智能领域的发展,使许多任务试图用人工智能的方法解决。本论文尝试使用深度学习的方法解决心电数据去噪音任务,该任务的目的是将噪音心电数据转换为无噪音心电数据。深度学习擅长处理监督学习任务,监督学习需要配对的数据学习源域和目标域的映射关系,但是心电数据去噪音任务的难点在于我们无法获取到配对的噪音心电数据和无噪音心电数据,只能收集到无噪音心电数据集。因
QXJG集团是东北部地区的一家老牌建筑企业,经过多年来的发展,企业不断转型升级,其管理逐步走向规范化、精细化,但是随着建筑行业竞争加剧,高学历的人员招聘难,高层次人员流失严重的问题已经凸显。结合建筑行业的发展现状来看,知识型员工在企业发展过程中所起到作用愈发明显。随着集团大量的引进知识型员工,企业在绩效管理上还显得相对滞后,不能很好的配合组织的人才引进和发展的需要。为此,QXJG集团希望通过绩效改
电离层Es(Sporadic E)是在电离层的E层偶发的电子密度相对于背景环境增强的一块区域。由于Es临界频率有时可以和F层临界频率相比拟,甚至比F层临界频率大的多,因此电离层Es的出现对于电离层电波传播具有重要的影响。同时电离层Es产生的物理机制还有待进一步的研究和完善,因此对于电离层Es的研究也具有重要的科学意义。而Es在频高图中的出现,特别是二跳回波,对F层相关参数的度量和反演具有很大的影响
党的十九大以来,为适应国内经济形势的发展和国际经济环境的挑战,我国税收征管体制改革不断加快,国地税机构合并、减税降费等一些重要措施陆续出台。在税收征管体制的深刻变革中,税务系统的组织结构、征管方式、工作内容等都发生了较大变化。基层税务干部作为税收征管第一线的税务人员,正面临着来自工作、家庭、社会等各方面的压力。积极研究、认识、缓解、解决这些基层税务干部的工作、生活、身体及心理压力,对维护社会稳定、