基于张量表示的时空序列特征建模

来源 :南京信息工程大学 | 被引量 : 0次 | 上传用户:moccaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来科技的进步,社会信息化程度的提高,面对曾经难以处理的海量图像、视频等张量数据,如今在机器学习、深度学习等技术的蓬勃发展下,人们具备了对其处理和研究的可能,而如何对纷繁复杂的张量数据进行有效的时空建模,是一个艰巨又关键的问题。针对时空序列中复杂的空间结构与时序关系,本文主要研究了时空序列预测中特征建模的如下几个难点问题:(1)对于多维张量数据,如何对其进行有效的稀疏表示学习,以及对于张量稀疏推断,如何对其进行高效求解,突破现有方法弊端;(2)对于自然时空序列,如何针对其空间结构特点,进行合理的空间特征建模及时序关系建模,并且实现高效预测;(3)针对现有空间特征提取算法与运算单元的结构敏感性,是否可以结合张量表示方法,对无明显空间结构的时空序列进行有效特征建模,从而实现近似预测。围绕这些问题,本文提出了一个基于张量表示的时空序列预测系统原型,其中包括三个部分:张量稀疏推断可微求解器,自然时空序列预测算法和一般性时空序列预测算法,在文章中分三阶段展开:第一阶段,针对难点(1),本文提出了一个张量稀疏推断的快速求解算法,实现了对张量稀疏表示问题的数据驱动式快速推理,并给出了算法的收敛条件与误差上界,同时在数值实验中验证了所提出理论的存在性,在重建实验中验证了算法的有效性。该算法为深度神经网络与张量稀疏表示的结合提供了理论基础。第二阶段,针对难点(2),本文提出了一种基于张量稀疏表示的时空序列预测算法,实现了对自然时空序列中时空特征的建模与未来序列的预测。该方法适用于低频空间结构为主体、高频局部结构为主要时序变化因素的自然时空序列预测,并在两个不同数据集上验证了有效性。第三阶段,针对难点(3),本文对该问题及相关概念进行了明确,提出了一种针对非局部时空特征建模的预测算法。基于张量表示,该算法引入了多通道线性算子与一种注意力机制,实现了对一般性序列中非局部时空特征的全局学习,以及对局部或非局部联系的自主学习。该算法适用于空间结构不明显,时空关联性复杂的一般性时空序列预测,在两个不同数据集上取得了目前最好的结果。
其他文献
人体行为识别一直是智能视频分析领域的研究热点,近几年被广泛应用在虚拟现实、人机交互以及短视频拍摄等方面,具有重大研究意义。随着深度学习算法在计算机视觉中的快速发展,基于深度学习的行为识别算法层出不穷,研究者们从识别准确率、识别速度、模型结构等方面对行为识别算法进行创新,然而目前的行为识别算法在识别精度和网络模型复杂度上仍有改进的空间。得益于深度学习尤其是长短期记忆网络在行为识别领域中的高速发展,本
近年来,随着工业和信息化的深度融合,数字化经济的发展,信息物理系统(Cyber-Physical Systems,CPSs)作为新一代的智能系统受到了广泛的关注和研究。CPSs在实现远距离实时传感和动态控制的同时,也带来了安全性的问题。随着计算机控制网络的开放性日益增强,拒绝服务(Denial-of-Service,DoS)攻击通过阻断数据传输造成的网络带宽资源被占用等问题不容忽视。另外,CPSs
由虚拟现实技术发展而来的增强现实近年来被应用在了多个领域,如教育,医疗,工业维修等,其中将增强现实技术与手功能康复技术结合逐渐成为康复领域的研究热点。本文通过改进增强现实的注册算法设计出针对ADL(activities of daily living,日常生活能力)的康复方案:首先针对VSLAM(visual simultaneous localization and mapping,视觉同时定位
图像在拍摄过程中受天气(雾、雨雪、阴天)、运动、光照不足等影响加之拍摄硬件设备的限制,会产生严重的退化,造成细节丢失、亮度降低、颜色退化、模糊、辨识度降低等问题,为了提升图像的可识别度以及为后续开展检测、识别、跟踪、分类等,本文针对噪声和运动模糊造成的低质图像进行清晰化的研究。开展了基于各向异性扩散和三维块匹配算法相结合的噪声图像清晰化算法及基于DeblurGAN模型的运动模糊图像的清晰化算法,主
在图像处理领域中,块匹配方法是图像去噪与运动估计中的常用方法,其通过查询指定区域找出相似块,进行信息的比对与联合去噪,从而削弱不符合图片规律的噪声。其中,三维块匹配算法(BM3D)结合了空间域与频率域的若干种算法,是当前图像去噪效果最好的算法之一。本文以非局部均值算法为基础对图像去噪算法进行研究,主要研究工作如下:首先,针对三维块匹配算法计算耗时长,针对相似块提取不够准确、分割块内分布不同的相似特
学位
近些年来,由于计算机和通信设备在功耗、移动性和效率等方面取得的技术进步,信息物理系统应运而生并得到快速发展。但与此同时,信息网络与物理世界的强耦合也给工业界带来新的挑战,其中,最突出的问题是网络安全性和有限的信道带宽。由于开放性的通信平台,网络攻击频繁地入侵信息物理系统,导致系统无法正常运行。另一方面,在信息物理系统中,信息数据和控制信号通过网络传送到远端,可能会导致信道拥堵,无法满足系统实时性需
随着数字图像处理软件和计算机信息技术的迭代发展,人们可以随意篡改数字图像而不留下明显的视觉痕迹。经过篡改的图像或生成的虚假图像通过社交媒介的加速传播对个人隐私、日常生活甚至社会稳定产生严重的负面影响。因此,研究有效的图像伪造定位和检测算法变得愈加重要。针对图像复制-粘贴篡改,现有针对该篡改的定位算法Buster Net采用并行网络结构鉴别源/目标区域,并通过含有四层池化层的VGG16提取特征,从而
近年来,视觉目标跟踪作为计算机视觉领域的研究热点,取得了越来越多的研究成果。已成功运用于视频监控中,并在智慧城市、交通管制、治安监控、安全检查等各方面得到实际应用。联合深度特征的滤波跟踪方法在视觉追踪中展现优异的性能,极大程度上推动目标追踪的研究发展。现有的诸多跟踪方法,仅简单利用目标的深度特征,分开处理目标深层语义信息特征,没有探索深度特征的关联性,限制了深度特征强大的表征能力,导致跟踪算法的鲁
学位