基于多模态的人肢体组合动作识别研究

来源 :南京林业大学 | 被引量 : 0次 | 上传用户:fanxingyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技飞速发展,信息技术不断跨越,高质量的人类生活对拍摄视频的需求更大、传输视频的速度要求更快、存储视频的空间需求更多,爆炸式增长视频数据需要行之有效的管理、分析和处理的方法。视频理解顺应时代的需求应运而生。视频理解通过智能技术,自动地对视频内容进行识别和解析。视频理解主要涉及三大方面:动作识别(Action Recognition)、时序动作定位(Temporal Action Localization)和视频Embedding,其核心是动作识别。人类对客观世界的感知是多模态的,主要包括:视觉、听觉、触觉等,形成丰富多彩动人场景。多模态视频比单模态更贴近人们真实感知。因此,多模态的视频理解比单模态的视频理解的研究具有更大的理论意义和实际应用价值。本文引入了一个新颖的组合动作设置,对IKEA ASM数据集和LEMMA数据集进行重新组织。建立了基于多视角特征融合的组合动作识别模型和融合位置信息的组合动作识别模型,研究了组合动作识别问题。实验证明了本文模型的有效性。本文主要研究内容如下:1、引入了新颖的组合动作设置。在设置中,保证动词和名词的组合在训练集与测试集中不重叠。对IKEA ASM数据集和LEMMA数据集进行处理并重组,具体包括先对数据集中的视频进行抽帧,对抽帧的图片进行格式转换以及缩放,再按照组合设置对数据集进行重新组织,重新划分测试集和训练集,为模型证明奠定基础。2、提出了多视角特征融合的组合动作识别模型。(1)使用建立在Res Net-50上的三维卷积网络作为模型的主干,以提取时间-空间表征。为了更有效地融合多视图特征,使用交叉注意力机制。(2)使用每个分支的CLS分类标记作为代理,在其他分支的patch tokens之间交换信息。在将各自分支的抽象信息与另一分支的不同信息融合后,CLS分类令牌与自己的patch tokens进行交互,将学到的信息传递给patch tokens,从而达到融合特征的效果。(3)通过平均池化层连接一个全连接层实现动作识别任务。实验验证了模型的有效性。3、提出了融合位置信息的组合动作识别模型。(1)利用物体检测方法中隐含的自上而下的结构来引导视频模型学习表征,从而捕捉到复杂的人类与物体交互的动态表征。(2)采用建立在Res Net-50上的TSM作为模型的主干。Ro IAlign在最后一个卷积层之上为每个实例提取基于区域的特征,其大小为3×3。将外观特征与位置特征串联成基本的联合特征。(3)通过平均池化层连接一个全连接层进行动作识别。实验证明了模型的有效性。
其他文献
选择性剪接是真核基因的进化关键特征,可增加蛋白质组多样性并调节基因表达,选择性剪接事件的准确识别和分类是研究基因组特征和基因功能的重要步骤。随着测序技术的发展,长reads转录组测序可以对全长RNA分子进行测序,有助于识别选择性剪接事件。然而,由于选择性剪接模式存在多样性特点,在没有良好注释的参考基因组情况下,准确定位选择性剪接存在困难。本文基于长reads转录本,研究植物基因选择性剪接识别与分类
学位
杜梨(Pyrus betulaefolia Bge.),为蔷薇科梨属落叶乔木,适生性强,在中性土或盐碱土均能正常生长。作为我国的原生树种,杜梨广泛分布于中国华北、华南及西北地区,常被用作梨树的嫁接砧木。HKT(high-affinity K+transporter)蛋白是一种与植物耐盐性相关的Na+转运蛋白或Na+/K+共转运蛋白,在盐胁迫下维持细胞的钠钾离子平衡中起重要作用。本研究在实验室前期对
学位
放射疗法是临床肿瘤治疗的一种常见策略;其中,由放射线引发的过多自由基导致心肌细胞凋亡是放射性心脏疾病(RIHD)的主要诱因。灵芝孢子油(GLSO)由于其抗氧化、抗炎及提高机体免疫力等功效而被广泛应用于生物医学领域。在本课题中,以高能乳化法合成灵芝孢子油纳米乳(GLSO@P188/PEG400),可有效改善其低水溶性。通过培养心肌细胞H9C2,建立X射线损伤模型,发现该纳米体系可显著提高灵芝孢子油对
会议
《辽金历史与考古》由辽宁省博物馆、辽宁省辽金契丹女真史研究会共同主办,属于较有影响的辽金史学术期刊。该刊物立足辽宁,面向全国,每年一期。在刊物的影响之下,辽宁省辽金史学术界在国内外的知名度显著提高。论文以第一辑至第十一辑的《辽金历史与考古》为研究对象,对其编辑情况进行概要介绍,通过对刊物的编辑特色进行分析,探究该学术集刊在编辑策划、版式编辑、编辑与传播等方面的特点,最后针对刊物编辑过程中存在的一些
学位
近年来,随着世界经济的高速发展,人们对商品和服务的需求大幅增加,导致自然资源枯竭与环境污染问题层出不穷。政府、公众、企业对环境问题的关注不断提高,绿色发展已成为必要趋势。绿色发展是一种可持续发展的新理念,是以和谐、持续为目标的社会发展方式。对环境问题的日益关注和与自然和谐相处的愿望促使消费者更愿意购买对环境无害的绿色产品,为了激发绿色消费积极性,越来越多的企业将环境问题纳入战略目标,绿色营销受到了
学位
针对风电出力的随机性,采用基于概率分析的场景方法研究含风电场的电力系统无功规划优化问题,以补偿设备总费用和年电能损耗费用为总和的年综合费用为目标函数,分析了风机的典型场景模型及在潮流计算中的处理方法,建立了含风电场的电力系统无功规划优化模型。在此基础之上,采用基于内点法和改进遗传算法的混合算法实现连续变量和离散变量共存的大规模电力系统无功规划优化,完整给出了能够用于包含风电场的电力系统无功规划优化
期刊
<正>2017年,《雄安规划纲要》在城市智慧化管理领域上提出“坚持数字城市与现实城市同步规划、同步建设,适度超前布局智能基础设施,打造全球领先的数字城市”的政策。舟山市、西咸新区、重庆市、长三角一体化示范区等地纷纷响应、参考采用数字孪生城市的建设理念和模式,先后制定智慧城市顶层设计和规划,以数字孪生城市为导向推进智慧城市建设。
期刊
高光谱技术是20世纪末迅速发展起来的一种全新遥感技术,能够在紫外、可见、红外区域同时获取目标图像以及图像上每个像素点的光谱数据。通过测量植被病虫害感染引起的光谱反射率及其相关特征参数的改变,可进行大规模植物病虫害发生动向、病情监测和预警。松萎蔫病是影响我国森林生态最严重的国际性林业检疫对象,也是世界各国严密防范一种的森林毁灭性病害,其传播范围广、发作速度快且致死率高。尽早发现和治理对减小松萎蔫病造
学位
“积极的受众”是一种人本位的研究视角,它关注处于弱势和被动地位的农民,关注农民的发展、农民的生存和生活环境、农民的品格修养和素质,注重对农民能力的提升,以及对农民生活环境的改善。农民新媒介素养和“积极的受众”是不谋而合的:以农民自身的发展推动乡村振兴整体环境战略的实施。本研究正是基于新媒介素养语境下“积极的受众”理论,细化新媒介素养的指标,对新疆南疆地区S镇的6个村庄进行问卷发放,勾勒出农民新媒介
学位
随着集成电路制造工艺水平的不断提高,其尺寸已缩小至纳米范围内,在这个尺寸级别下,量子效应对器件的可靠性、功耗等性能均产生一定程度的影响,根据摩尔定律的预测,集成电路已经面临巨大的挑战。而伴随着二维材料石墨烯的发现,给集成电路现存的瓶颈问题在“后摩尔时代”指明了新的方向。由于二维材料的低维特性使得其表现出丰富优异的电学、磁学、力学、光学等物理性质,其中铁磁性在信息存储、逻辑器件和数据处理等方面有着广
学位