【摘 要】
:
近年来增强现实(Augumented Reality,缩写为AR)技术飞快发展,第一人称视角下的交互识别(Egocentric Action Recognition,缩写为EAR)在应用场景中可以用于理解用户行为,更好地选择响应行为。但是,该任务中的输入只涵盖了部分场景信息,在涉及到多人之间的交互场景时,捕获到完整的场景信息更有利于分辨用户的意图和理解用户的行为。成对第一人称视角下的交互识别(Pa
论文部分内容阅读
近年来增强现实(Augumented Reality,缩写为AR)技术飞快发展,第一人称视角下的交互识别(Egocentric Action Recognition,缩写为EAR)在应用场景中可以用于理解用户行为,更好地选择响应行为。但是,该任务中的输入只涵盖了部分场景信息,在涉及到多人之间的交互场景时,捕获到完整的场景信息更有利于分辨用户的意图和理解用户的行为。成对第一人称视角下的交互识别(Paired Egocentric Action Recognition),需要根据两个面对面站立的AR用户提供的视频作为输入,包含了比较完整的场景信息,因此,可以更好地理解用户间的交互行为。现有的相关工作直接将对应的视频对作为输入,使用线性决策过程处理不同视角间的特征融合问题。成对第一人称视角下的交互识别(PEIR)中包含的场景在两个视角间具有场景一致性。本文指出这种场景一致性,包括由于成对视角共同观察某一物体导致的空间信息一致性,和两视角下交互者运动导致的时序信息一致性。而已有的工作忽略了场景一致性。本文将从场景一致性出发,探索如何捕捉这种场景一致性和捕捉场景一致性对PEIR模型是否有帮助。本工作将从成对视角特征融合方式选择和最大化两视角间互信息的两个角度出发,设计基于双线性池化和互信息最大化的PEIR模型,并通过对比实验和消融实验证明该模型确实具有更完备的视频理解和交互识别能力。本文最后在PEV数据集上验证本工作提出的基于双线性池化和互信息最大化的PEIR模型是有效和合理的,并通过模型可视化来显示模型捕捉到的场景一致性。
其他文献
分布式发电是一种有着广阔发展前景的发电方式。但是,在技术与管理条件及市场机制的限制下,其交易模式依然以集中式发电供电模式为主,其在电力利用节能、经济及安全等方面的作用并没有体现出来。在我国电力体制改革不断深化的背景下,分布式电源迎来了前所未有的发展机遇,甚至有望成为配电网系统中最关键的组成部分。该文重点针对电力市场环境下的分布式电源交易模式进行详细分析,以供参考。
面神经损伤导致的面神经瘫痪作为一种功能性残疾严重影响着人们的身心健康。而由于面神经分化程度高、再生潜力低等原因,面神经损伤修复极具挑战。近年来面神经损伤修复研究主要包括手术治疗、组织工程治疗、基因工程疗法、理疗与心理干预等,取得了一定的临床疗效。本文从面神经解剖特点和修复机制入手,对面神经损伤修复进展进行综述,以期为临床医师提供指导;并期待未来有更多切实有效的研究应用于临床。
<正>“双减政策”的落实必然会对传统的教学模式带来一定的影响,其根本目的是为了减轻学生的学业压力,激发学生的学科兴趣,等等。所以在小学数学单元作业设计过程中,也需要引入最新的教育理念,通过加强单元作业设计的创新性、多样性、趣味性等,逐步优化学生的学习环境,确保学生能够灵活性地运用数学知识去解决实际问题。
<正>弘毅自强传承创新广西中医药大学将在自治区商务厅、中医药管理局等部门大力支持下,依托广西的区位优势、资源优势,以及学校学科、人才和科研优势,高标准建设好2馆2部2中心(中国-东盟传统医药综合馆、国医大师及名医名家馆、中医药教育培训部、国际交流服务部、大健康产品研发中心、高端中医特色医疗体验中心),从六个方面推进中医药服务出口基地建设:一是优化完善中医药人才培养模式,加强东盟国家中医药人才培养力
对于很多日常的感知运动的任务,例如步行和驾驶,为了完成这些任务,人们需要从周围环境中采集相应的视觉信息,而视觉扫描从中起着至关重要的作用。本文探究了在三维动态环境中执行感知运动任务时视觉扫描的机理。在虚拟驾驶环境下,利用眼动跟踪数据作为一种生物标志物来指征视觉眼肌运动行为。本文提出了一种新的视觉扫视效率度量,利用一种广为人知的信息论工具,Jensen-Shannon散度,将其定义为注视分布与光流分
在大数据时代背景下,如何从零散且分散的数据中挖掘出人员的潜在行为模式从而计算人员风险,一直以来是研究的热点和难点。目前已有的工作大多都是仅仅通过人员的历史行为数据计算人员风险,但未给出造成异常行为的原因,且尚未有一套完整的针对人员行为风险计算的方法框架。本文利用实验室构建的风险计算框架RCF和频繁模式挖掘算法的相关理论,提出了一套模式挖掘检测框架,对人员的物理踪迹数据和电子踪迹数据进行挖掘并分析其
随着大数据和互联网技术的发展,大量的知识图谱已经被开发出来。知识图谱上的知识推理旨在识别错误并从现有数据中推断出新结论。实体之间的新关系可以通过知识推理得出,以此来丰富知识图谱,然后支持上层应用程序。考虑到知识图谱的广泛应用前景,近年来对大规模知识图谱的知识推理硏究已成为自然语言处理的研究重点之一。规则、嵌入和神经网络都可以用于知识图谱推理,它们各有各的优缺点。本文首先提出了本体语义信息这个概念,
<正>1.神经再生领域学科热点问题(1)神经调节和再生:包括神经细胞的再生、轴突再生和突触重塑等;(2)神经损伤和修复:包括脊髓损伤、中风、多发性硬化和神经变性疾病等;(3)分子和细胞机制:包括神经营养因子、生长因子、神经元和星形胶质细胞的分子和细胞机制等;(4)神经组织工程治疗:包括神经组织构建、细胞治疗、基因编辑治疗、生物工程、神经假体等治疗中枢及周围神经系统疾病;
随着信息技术和多媒体技术的快速发展,多标签分类由于在多媒体图像标注、社交网络数据挖掘、影像标注等多个场景有广泛的应用,已经逐渐成为一个重要的研究课题。不同于单标签分类任务中每个样本只对应一个标签,多标签分类任务中每个样本可以与一组标签关联,需要输出多个标签信息。尽管在多标签学习任务上,多年来已经取得了一些进展,但是目前仍然存在许多困难。由于多标签实例中标签通常是有关联的,因此,如何学习和捕获多个标