【摘 要】
:
视频中的人体姿势、动作识别是人类行为自动分析理解的基本任务。无论在运动还是静止情况下,获取人体信息都必需进行人体姿势、动作识别。随着机器学习的快速发展和深度学习技术的进步,尤其是用于特征提取、分类或回归的端到端深度神经网络结构,成为提高图像和视频中姿势估计和动作识别性能的关键。在本论文中,我们提出了使用深度卷积神经网络进行姿态估计和动作识别的新技术,这是一种专门为二维特征提取而设计的深度神经网络。
论文部分内容阅读
视频中的人体姿势、动作识别是人类行为自动分析理解的基本任务。无论在运动还是静止情况下,获取人体信息都必需进行人体姿势、动作识别。随着机器学习的快速发展和深度学习技术的进步,尤其是用于特征提取、分类或回归的端到端深度神经网络结构,成为提高图像和视频中姿势估计和动作识别性能的关键。在本论文中,我们提出了使用深度卷积神经网络进行姿态估计和动作识别的新技术,这是一种专门为二维特征提取而设计的深度神经网络。由于深度卷积神经网络能够自动学习训练数据中的低级和高级特征,基于深度卷积神经网络的方法优于此前基于特征工程的方法。由于在图像识别的关键是根据所需任务提取相关特征,因此在我们提出的技术中,重点是如何利用新的深度卷积神经网络结构来改进特征提取。我们从数据类型和问题性质两个不同方面解决问题。首先,我们将深度图像中的三维姿态估计和彩色图像中的二位姿态估计视为回归问题,在使用深度卷积神经模型进行端到端学习的过程中,我们将输入图像直接映射到姿势位置。其次,我们同时使用深度图像和三维姿势数据来构建提供不同类型的运动特征的两个描述符,然后设计了三个深度卷积神经网络通道用于特征提取和动作分类。最后,作为一项补充工作,并在分析人类行为的相同背景下,我们提出了一种无需学习的运动量化算法,使用基于计算指标的三维姿势来表征身体运动。此外,提出了一种基于量化算法的运动比较算法来评估两个身体运动之间的相似性。为了测试我们算法的有效性,我们在公共基准数据集上评估了我们提出的姿势估计和行动识别技术。定量和定性结果均显示我们的方法与最先进方法不分高下。
其他文献
开发和利用可再生能源是解决能源环境问题的有效途径之一。生物质作为一种重要的可再生能源已受到世界各国的重视。生物质气化技术因其转化成本低、原料适应性强、气化产品的利用具有多样性等特点被认为是短期内具有商业化利用前景的技术之一,因而受到了广发的关注。目前,生物质气化中焦油含量高是制约其商业化利用的瓶颈,如何开发低焦油、高气化效率的生物质气化技术成为研究热点。针对根据国内外气化炉的研究进展及发展趋势,本
研究目的研究胰十二指肠切除术后胆瘘并发症的危险因素,特别是腹腔干显著狭窄对胰十二指肠切除术后胆瘘的影响。研究对象与方法回顾性分析2013年1月1日至2015年12月31日于上海交通大学医学院附属瑞金医院行胰十二指肠切除术的511例患者的临床资料,统计术后胆瘘和其他外科并发症的发生率。通过患者的术前上腹部CTA或上腹部增强CT研究并估算其腹腔干动脉粥样硬化斑块性狭窄的情况,显著狭窄定义为粥样斑块所致
目的:将扩散图像预处理(BO场强图矫正法和非线性配准矫正法)、扩散模型对比分析、临床应用三者结合。基于同一组非线性配准法矫正后健康成年人峰度图像,研究扩散张量成像(Diffusion Tensor imaging)、峰度成像(Diffusion Kurtosis imaging,DKI)和扩散基谱成像(Diffusion Basis Spectrum Imaging,DBSI)模型参数的相互关系和
研究目的:近年来越来越多的儿童慢性胰腺炎(Chronic Pancreatitis,CP)被诊断出来。儿童患者无论从病因构成、临床表现均可能和成人有所不同。尤其是对生长发育的影响,是儿童当中独特的表现。目前国内缺乏这方面的研究数据。国外的研究发现儿童慢性胰腺炎中很大一部分是由于基因突变所引起,基于种族、地域的差异,有必要对我国慢性胰腺炎患儿相应的临床特征、遗传基因进行研究。此外,而作为主要治疗手段
目的:光感受器细胞死亡是视网膜脱离(retinal detachment,RD)患者视功能损伤的主要原因。课题组前期研究提示光感受器细胞微环境损伤可能是导致其死亡的启动阶段。干预细胞膜表面的肾上腺素能受体(adrenergic receptor,AR)在新近研究中被发现具有神经细胞保护作用,提示AR可能是导致RD后微环境损伤与光感受器细胞死亡的上游调控机制。本研究首先探讨RD患者光感受器细胞微环境
凯瑟琳·贝尔西(1940-)是当代英国的一位文学和文化批评家。她的第一部专著《批评的实践》出版于1980年,在英国和西欧产生较大影响。此后她又出版九部专著和一本研究莎士比亚的论文集,逐步形成善用当代法国思想进行文学批评的特点。本论文以贝尔西的文学批评著作为研究对象,在梳理其文学批评发展轨迹的基础上,探讨其批评模式转向的问题,或者说“批评转向”的问题。本研究把论述建立在对当代西方文论发展史和贝尔西的
本实验室前期的蛋白组学结果提示血管组织内G蛋白偶联受体激酶(G-protein coupled receptor kinases,GRKs)表达水平受到力学刺激调控。GRKs是一类Ser/Thr蛋白激酶,其最初被发现的作用是磷酸化活化的G蛋白偶联受体(G-protein coupled receptors,GPCRs),使它们脱敏。近年来,GRKs表达水平和活性变化在与力学因素密切相关的高血压、动
行人重识别,是对摄像头网络(通常情况下,网络中的摄像头无视域重叠)中的行人进行身份(ID)关联(即将不同摄像头下的同一行人识别成相同ID)。它在智能安防、居家养老、智能交通管理和安全生产监管等领域有着非常重要的应用前景。由于摄像头视角、光照、行人姿态、随身携带的物品、以及相互遮挡等复杂场景条件变化,导致同一行人在不同摄像头下的图片,在视觉上呈现出明显差异。其中,光照条件变化主要导致行人图片在颜色域
声源定位技术是近年来国内外研究的一个热点,它涉及到声学、信号检测、数字信号处理等诸多技术领域,在军事、工业和民用领域有着重要的应用价值。声源定位技术一般借助于具有一定拓扑结构的传声器阵列来实现,声源定位的线索为接收信号间的到达时间差或幅值差。为了获得足够的声场信息,取得较高的定位精度,通常需要传声器阵列在保证一定阵元数目的同时具有比较大的阵元间距,这往往导致定位装置的整体尺寸比较庞大。而在一些特殊