【摘 要】
:
非刚性目标三维重建作为三维重建领域的重要分支,其致力于求解非刚性目标的三维重建问题。相较于刚性目标的三维重建,其形变自由度更高、问题求解难度更大。而鉴于日常生活当中非刚性形变的广泛存在,求解此类三维重建问题是极具应用价值以及发展前景的。非刚性运动恢复结构(Non-Rigid Structure from Motion,NRSf M)是用于求解非刚性目标三维重建问题的一类经典方法,其通过序列图像中提
论文部分内容阅读
非刚性目标三维重建作为三维重建领域的重要分支,其致力于求解非刚性目标的三维重建问题。相较于刚性目标的三维重建,其形变自由度更高、问题求解难度更大。而鉴于日常生活当中非刚性形变的广泛存在,求解此类三维重建问题是极具应用价值以及发展前景的。非刚性运动恢复结构(Non-Rigid Structure from Motion,NRSf M)是用于求解非刚性目标三维重建问题的一类经典方法,其通过序列图像中提取出的二维特征点信息,基于因式分解的思路以及适当的先验假设约束,实现逆向还原出物体的三维模型以及相应的旋转信息。而传统的NRSf M求解方法通常基于低秩假设以及迭代求解方法进行求解,这导致了求解时间长且重建精度易受选取形状基数量的影响等问题,这是不利于其实际应用的。对此,新提出的基于低秩的非刚性目标三维重建方案通过将传统的低秩NRSf M理论与深度学习方法进行有机结合,基于自动编码器网络模型实现了将二维特征点映射到三维空间当中,从而实现非刚性目标的三维重建问题求解。随后受潜在变量模型以及深度学习当中的深度生成模型启发,在所设计的网络模型的基础上,新设计了一系列对于网络模型学习到的潜在空间的约束方法,其中包括线性变换模块、稀疏损失以及基于生成对抗的概率分布映射。新方案通过线性变换模块以及稀疏损失约束网络模型学习到的潜在变量,使其倾向于低秩以及稀疏化。而后为了更好的重建精度以及泛化能力,新方案通过对抗训练以及判别网络模型,实现概率分布之间的映射,将原本的点对点的映射过程提升为概率分布之间的映射。基于CMU Motion Capture数据集构建了实验数据集,并分别从定量及定性的角度对新提出的方案进行了实验分析。实验结果表明,新提出的方案在重建准确性以及求解速度相较于现有的NRSf M方法有较大的优势,并且具有较强的泛化能力。
其他文献
一个深度卷积网络往往建立在大量的数据基础之上,相应的人工标注工作是惊人的,自监督学习的学习方式提供了一个解决方案,让模型自动挖掘数据中的特征。视频数据本身具有较强的时序信息,视频预测是一个依赖于数据时序信息的任务,利用时序信息分析图像帧中对象的变化趋势是一个视频预测模型必须具备的能力。此前的视频预测方法大多只能在相邻时间步的时空特征获取预测的特征依据,导致模型容易在靠后的时间步预测中丢失预测对象的
动态视觉显著性预测指通过算法检测人眼在观看视频时的注视点位置。视觉关注点的位置主要由眼球运动决定,而眼球运动又由视频内容的运动决定。已有的动态视觉显著性模型假设眼球运动和视频内容的运动是一致的,并通过视频内容的时空特征来预测视觉关注点的位置。然而,研究表明,视频内容运动与眼球运动不一致的情况在视频显著性数据集中普遍存在,在这种情况下,基于以往假设的方法会发生错误的检测。为了解决这个问题,需要设计新
在现实世界中,存在着各式各样的系统,这些系统往往可以抽象成图论中的网络。从网络中寻找到有价值的社团信息是重要且有意义的。近几十年来,社团检测在社会学、生物学、流行性疾病学等研究中被广泛研究并得到了快速的发展,出现了许多揭示网络结构算法。这些方法大多数用于不重叠或重叠的社团结构,或从全局社团结构转换为局部社团结构。2015年,何琨等人提出了一种新的图论概念:“隐藏社团结构”。如果一个社团的大部分成员
如今互联网技术飞速发展,越来越多的电子文档在网络上广泛传播,由此带来的文档版权归属等安全问题需要被解决。可见水印被应用于多媒体信息中提供有效的版权保护。同时,为了评估水印的抗攻击型、鲁棒性,水印攻击算法应运而生。当前对可见水印的研究大多都针对图像,对文本图像水印的研究于20世纪末陷入停滞,因此,本文对文本图像水印去除算法、近重复文档匹配算法中进行了深入研究,以此为版权保护提供支撑,主要内容如下:(
传统搜索引擎根据用户查询返回多个相关文档的链接已经不再能够很好满足用户的信息需求,用户更倾向于由信息系统直接为其问题提供一个可能的答案。近些年,基于神经网络的问答模型在多项测试中崭露头角,但是它们大部分都用于单跳问题,无法判断这些模型是真正理解了问题语义还是仅仅使用了简单的字面量匹配。相反的,多跳问题需要模型沿着多个中间实体推理才能得到答案,更具有一般性。通过研究开放域问答中多跳问题的推理机制,主
医学图像具有非常复杂的视觉特征,在传统医疗行业中人类医生凭借个人经验对图像中的病理类型进行分类,缺乏统一标准且不能保证分类准确率。神经网络在医学图像分类任务中可以发挥超越医生的分类性能,通过深度学习算法开发计算机辅助诊断系统是重要的研究和技术发展方向。多标签和不确定性标签是医学图像的两个自然属性。研究如何在含有不确定性标签的多标签数据集上进行数据挖掘是神经网络在医疗场景广泛、深度的应用中不可缺少的
股骨头坏死是一种各年龄段常见病症,一种新的股骨头表面置换外科手术可以更加有效地治疗该病症,为了保证手术的顺利进行,需要将手术器械顺着股骨干和股骨颈解剖轴的方向放置。因此股骨解剖轴的定位好坏将直接影响到手术的顺利进行与否。在分析了现有的股骨解剖轴定位方法以后,设计了一种基于随机抽样一致算法的股骨干和股骨颈解剖轴定位方案。在图像预处理模块,使用了重采样的方法统一像素间距。在股骨干解剖轴定位算法中,采用
随着医学影像技术在临床医学中的广泛应用,头颈CT图像骨骼分割在医学影像处理中发挥着越来越重要的作用。使用高效的头颈CT图像骨骼分割算法自动地对头颈部骨结构定位、分割,对于骨科医生的临床医学诊断、制定骨科手术方案或是血管分析中的去骨操作都有重要意义。基于传统的医学图像处理方法在自动化和分割精度上都不够理想,目前基于深度学习的CT图像骨骼分割方法被广泛应用,而且全卷积3D U-Net网络在医学图像分割
胸腹部是人体疾病的高发部位,胸腹部CT图像可被用于诊断胸腹部的骨骼类和血管类等疾病。设计一种自动分割方法将胸腹部CT图像中的多种骨骼分割出来具有重要意义,分割出的骨骼不仅可以直接用于CT骨分析项目,服务于骨骼三维阅片诊断、骨科手术规划等;而且可以用于CT血管分析项目中的去骨操作,满足血管显示和定位等需求。目前传统图像分割方法对胸腹部CT图像骨骼分割的精度不高,且很难将骨骼的类别进行细分。深度学习的
预训练语言模型适用于多种自然语言处理任务,也为自动文本摘要任务带来效果的提升。基于预训练语言模型Ro BERTa的简单抽取模型存在一些问题,因此使用四种改进方法来解决其存在的弊端以提升摘要质量。采用等级编码器机制解决文本截断的问题,等级编码器机制将Ro BERTa作为句子级抽取器,相同结构的Transformer编码器作为文档级编码器,保留更多文本信息的同时,提供更高层次的信息整合能力。采用基于图