时空先验建模的视频稳像方法研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:feixingyuan1977
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数码成像与探测设备的高速发展,各类手持、车载和无人机载相机得到了广泛普及。视频作为一种最形象生动的视觉信息表现形式,已成为人们观测与感知世界的主要方式。然而,在相机拍摄视频的过程中,由于缺乏稳固的支撑,拍摄的视频可能会存在不同程度的画面抖动,这极大降低了人们的观看体验和后续高层模式识别方法的性能。此外,在相关军事领域,视频序列的抖动严重影响了结构化视频分析、图像判读与智能决策精度。虽然可借助一些光学稳像器件、专业摄影器材对拍摄时的运动抖动进行补偿以达到稳像目的,但这类方法往往成本较高且稳像能力有限。因此,以软件形式实现的高性能视频稳像算法是目前应用最广和能力最强的稳像手段。基于软件的视频稳像方法可以不借助任何额外硬件直接对抖动视频进行处理,且能产生高强度的稳像结果,已成为视频处理领域的一项热门研究课题。相机抖动可导致视频画面随机震动、目标跳跃与变形、图像模糊等降质现象。视频稳像的目的是从低质抖动的视频中重建出符合摄影运动学规则的高质量视频。从数学上讲,视频稳像是视频序列中潜在平滑运动恢复与图像重建的欠定反问题。一般而言,稳像算法主要由三个阶段构成:运动估计、运动平滑和图像生成,其关键核心是运动平滑的方案设计。在分析相机运动性质和现有算法存在的缺点后,本文学术思想是挖掘视频帧间、帧内运动的时空特性,从邻域运动模式、运动分解与恢复等角度深入研究时空先验约束的视频稳像模型和高效处理算法。与此同时,还对稳像过程中的相关问题进行了针对性的研究,如快速运动的处理、卷帘效应的矫正等。本学位论文的主要工作和研究成果如下:(1)提出了一个基于全变形变差模型的视频稳像算法,可有效减轻运动估计误差对稳像性能的影响。对于传统的级联运动变换链算法,若运动估计阶段存在误差,则此误差会因运动变换的联乘而累积,最终导致运动补偿精度的下降。为了避免累积误差的产生,本文提出了一个新的全变形变差模型,该模型以每一帧的变形变换为未知参数,由运动平滑项和参数保真项构成,模型求解后无需计算运动变换链便可直接生成稳定帧。同时,为了快速求解此参数高度耦合的最优化模型,经统计分析后可将相似变换参数划分为加性和乘性参数,由此将运动模型的整体求解分离为四个参数序列的独立优化子问题,并给出了每类参数模型的解析解。此外,本文还对此模型做了进一步拓展,提出了一个用于高强度稳像的迭代平滑模型和一个处理长视频序列的在线稳像方法。实验结果表明,该方法对运动误差具有鲁棒性,且能提供有竞争力的稳像结果。(2)提出了一个结合运动多样性约束的局部低秩正则化视频稳像模型,充分挖掘了邻域帧间运动的性质并在运动建模中首次引入低秩先验。与基于路径优化的方法不同,该方法重点研究局部帧间运动中的关系。依据摄影规则,高质量视频中的相机运动可以分为三类运动模式:零速率、常速率和加速运动模式,且一个局部时域窗口中往往仅包含少量不同的运动模式,这一现象在数学上可表示为运动矩阵的低秩性,因此该方法对平滑运动首次引入低秩约束并提出了一个新的运动平滑正则化模型。此外,为了使运动平滑模型灵活应对不同的运动状况,提出了变长窗口的自适应运动加权机制。在数据保真项中使用新的运动控制核为自回归权重赋值,得到了优于经典高斯核和双边核的性能,且局部窗口的自适应调整可进一步减少稳定快速运动造成的图像内容丢失。实验结果验证了先验假设的有效性,也展现了该方法可以提供更好的运动稳定性。(3)提出了一个基于运动形态学成分先验的视频稳像模型,通过对帧间运动进行多成分分解,克服了传统模型应对复杂运动模式的局限性。一个好的稳像模型应该具有时域运动自适应性和对不同运动模式的鲁棒性。之前方法容易产生非运动自适应的结果,如在低频抖动区间的稳定程度不足,而在快速运动区间极易造成过平滑。为解决这类问题,该方法将帧间运动分解为三个运动形态学成分:低频平滑运动、高频补偿运动和噪声运动,通过综合不同运动模式的时空特性,结合加权核范数、局部自回归和稀疏约束,建立了运动形态学成分先验正则化联合优化模型,并基于交替方向乘子法(ADMM)设计了一种高效稳像算法。同时,通过检测与分割快速运动区间,构造了运动模式自适应的正则化参数动态调整方法,实现了稳像算法对多样化运动模式的灵活处理能力。实验结果表明该方法能在不同运动种类的视频中得到高质量稳像结果。(4)提出了一个帧间帧内运动建模的同时视频稳像与卷帘效应去除方法,解决了单独稳像无法有效消除卷帘效应的问题。由于CMOS相机特有的卷帘快门方式,视频抖动与卷帘效应往往同时存在,单独解决其中任一问题都不能得到最理想的结果。因此,该方法明确建模并估计网格化帧间和帧内运动,利用两类运动的时空相关性直接计算出能同时稳像与矫正的变形变换矩阵。其中,为精确估计网格化帧间运动,该方法引入了一个新的邻域运动一致项并给出了模型参数的自适应计算方法。其次,不同于传统卷帘效应去除方法采取的单一运动假设,该方法计算空间变化的网格化帧内运动,由此得出的矫正运动能更真实地体现深度变化造成的影响。最后给出了一个运动感知变形变换的计算过程,使该方法灵活调整对不同邻域运动的处理强度。实验结果表明该方法在多个定量指标中达到了最好的综合性能。
其他文献
逆变器是一种将直流电转换为交流电的电能变换装置。多电平逆变器具有开关管电压应力低、输出电压质量高以及电磁干扰小等诸多优势受到广泛研究。相对于传统多电平逆变器而言,双向高频隔离多电平逆变器结合了高频链技术和多电平逆变技术,不仅具有多电平技术的诸多优势,还兼具有高频电气隔离、双向功率流等优点。目前,双向高频隔离多电平逆变器主要采用基于双有源桥的两级式架构。两级式架构由高频隔离DC-DC和全桥DC-AC
随着图像数据的日益增长,图像近似搜索(又称图像检索)扮演着越来越重要的作用。在过去的几年里,监督的图像检索可以获得令人满意的效果,然而由于带标签数据集的稀少以及人工标注的成本太高,无监督的图像检索成为主要关注点。为了节省存储空间,本文研究稀疏图在无监督图像检索中的应用,致力于在节省空间的同时提高图像近似搜索的精确度。该技术目前有以下三个主要问题需要解决:(1)标签信息缺失情况下的近邻信息挖掘问题。
目前,黑磷作为一种新型的二维层状半导体材料,具有石墨烯等其他二维材料不具备的优异性能,如高电子迁移率和开关比、具有直接带隙,良好的生物安全性等等,这使其在生物、医疗、光催化等领域有着广泛的应用潜力。本文基于上述优点对黑磷在光动力学治疗领域的应用进行了研究,首先对制备黑磷量子点的工艺进行了探索,采用液相剥离的手段获得黑磷量子点(BPQDS),并通过高分辨透射电子显微镜(TEM)、拉曼光谱仪(Rama
随着遥感对地观测技术的发展,单一类型的遥感图像已经无法满足逐渐增长的应用需求,而不同类型的遥感数据的之间会存在一定的差异性和互补性,因此越来越多的学者将目光转向了多源遥感数据的协同分类。在众多类型的遥感图像中,高光谱图像以其精细的光谱分辨率在地物分类中占据重要的地位,但高光谱图像普遍存在空间分辨率低的问题,空间分辨率的不足导致图像中会存在较多的混合像元,这给地物的精细分类带来了极大的干扰。因此,本
冲压加速器是一种利用混合气体推进剂的化学能,将弹丸加速到高超声速的新概念推进装置。推进剂的反应速率和放热量较高时,火焰阵面会向弹丸前体移动,并越过弹丸肩部,对弹丸产生阻力,产生不启动现象。当弹丸肩部表面存在激波反射点时,激波后方的高压区对火焰的传播有一定的阻塞作用,能够扩大推进剂的反应速率范围。根据这一思想,本文基于粘性理想气体假设,采用SST k-ω湍流模型、有限速率/涡耗散模型和甲烷-氧气单步
运动想象脑电信号是由大脑进行想象运动时激发的信号。基于运动想象脑电信号控制的脑机接口(Brain Computer Interface,BCI)系统可以直接将大脑想象的运动意图解码为控制指令,完成对外部设备的控制。作为一种新型人机交互技术,BCI系统可以应用于多种场景,但是实际应用中基于运动想象脑电信号的BCI系统存在着:运动想象脑电信号种类少、多分类任务的识别准确率低和实时传输速率慢等问题。为实
由于通讯网络连结了网络空间及实体空间,因此网络化控制系统可以在长距离下执行许多任务。而且,网络化控制系统的信息都透过共享的网络传输,省去了不必要的配线,减少系统复杂度,也降低了设计及架设系统需要的成本。若要增加传感器、控制器或是执行器来调整或是更新系统,也可以用较低的成本达到,而且不会变动系统的主架构。因此,与传统的控制系统相比,网络化控制系统有无与伦比的优势。在此基础上,本文研究了基于采样数据的
专利是重要的知识财富,通过研究专利可以找到重要的技术细节和关系,这些信息和关系为制定研发策略提供有价值的信息。因此有必要进行专利检索和核心专利识别方法的研究。但随着专利数量增加,专利检索成本以及核心专利识别难度也日益增加,主要原因在于专利描述文本自身的特点,如专利文本冗长,专利描述中充斥着各种技术和法律术语等。为了提高检索质量以及准确度,通过核心专利推演关键领域未来的发展趋势,论文以专利文本作为研
过高的特征维度导致了机器学习训练过程中存储开销大,运算量大,时间成本高。并且,这种现象随着环境空间维度的成倍增加,而训练数据在整个数据空间中的比例急剧下降,导致训练模型泛化较差。解决这些问题的一个重要方法是降维,即通过一些有效的手段将原始的高维空间数据转换到低维子空间。流形学习假设高维环境空间中的数据分布于低维嵌入的某个流形上或附近,因而降维问题可以理解为低维流形恢复问题。鉴于非线性流形学习算法在
学位