基于大数据驱动的图像转换研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:xdt1973
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于大数据驱动的图像转换技术是图像合成、虚拟现实和机器学习等领域中的重要研究内容,其研究进展在刑事侦破、文化娱乐及航天遥感等方面有着重大的应用价值。尽管计算机视觉领域在最近一些年取得了巨大地突破,但在一些具体的视觉任务中依然还有很长的路要走。对于图像之间的转换来说,如何建立不同域之间图像流形上的映射是一个比较难处理的问题。对于人类视觉来说,图像的理解与生成过程可以认为是人类眼球视觉细胞对于光线敏感程度的响应,而这种响应过程往往是隐式地。这种隐式的过程限制了图像域之间转换的表达。研究如何更加精确地建模不同图像域之间的映射,获得可靠且高质量的图像转换结果,对于数据驱动下的视觉相关领域具有重要的现实意义。
  为了近似图像转换过程中的图像理解与生成,本文从数据驱动的角度出发,开展了基于大数据的图像转换研究。具体的研究如下:
  1.传统的纹理合成相关算法需要决定像素(块)合成的方向来决定图像的结构并从参考图像中找到合适的类比。然而,往往在复杂的图像合成中很难得到一个令人信服的结果。针对这种情况,本文提出了结合大数据驱动的思想,通过互联网大数据来弥补小样本结构生成的不足。本文选择了典型的复杂场景转换问题(四季场景转换),验证了大数据驱动的方法在处理参数化模型无法解决的复杂场景转换问题上的有效性。
  2.近两年随着神经网络的流行,越来越多的计算机视觉任务得到了发展。本文探究了拉普拉斯分解对于图像转换质量的影响以及在精确可逆过程下增量学习的有效性。在这个工作中,本文考虑利用深度卷积网络强大的非线性学习能力来近似图像转换中的分析与合成过程。本文选择了计算机视觉领域经典的本征图像分解问题,有效的说明了基于拉普拉斯分解网络的框架能有效的提升本征图像分解的准确率与视觉效果,同时验证了在精确可逆过程中增量学习对于数据量不足情况下的有效性。
  3.为了进一步分析尺度空间分解下的图像转换,本文提出了一种分析合成网络。该框架将拉普拉斯结构扩展成可学习的结构,使得图像转换在频率域的分解中满足划分的条件并充分利用数据来学习尺度空间分解的分布规律。这种可学习的尺度空间结构更加具有通用性与灵活性。本文选择了图像超分辨作为具体的研究应用,验证了可学习的尺度空间分解能有效的提升图像超分辨的视觉合理性。
  本文从传统的大数据驱动出发,提出了基于尺度空间分解的图像转换以及可学习尺度空间分解的合成分解网络。并先后在复杂四季场景转换、本征图像分解、图像超分辨三个领域进行验证,逐步实现了大数据驱动的优越性,尺度空间分解的有效性以及分析合成框架的通用性。
其他文献
手势交互可以通过多种交互设备进行,如深度相机、彩色相机、数据手套、表面肌电电极等。基于表面肌电的手势交互凭借其易穿戴、对光照环境的鲁棒性以及对残疾用户运动意图较强的识别力等优点,成为人机交互领域的新型研究热点之一。  在基于表面肌电的手势交互中,其核心问题是如何准确地对肌电信号建模并识别出用户输入信号中所表达的含义。研究者们已基于经典机器学习和深度学习的框架对表面肌电手势识别进行深入研究,但依然存
随着计算机技术的快速发展,互联网积累了海量的时序数据,如问答数据、社交网络数据和电商交易数据等。如何对这些时序数据中内隐因素之间的交互进行建模,理解个体用户或群体用户在时序数据中所蕴含的意图和行为,是当前人工智能领域研究的热点和难点。本文以问答系统中时序数据理解为研究对象,提出了若干算法模型并进行验证。  一般而言,问答时序数据中丰富的内隐交互信息可以分为结构时序交互和语义时序交互。结构时序交互表
学位
随着云计算、大数据和物联网等信息技术的飞速发展,全球数据呈现出海量集聚的特点。这些从不同来源所获取的海量数据反映着人类社会的生活和规律,如群体出行和交通流量。因此,如何对多源数据进行分析与理解,以更好地全面了解这些多源数据所蕴含的丰富信息,是一个值得研究的重要问题。  多源海量数据本质上是序列数据,这些从不同来源获得的序列数据之间相互补充、彼此交互,刻画着人类社会中群体的行为习惯和生活模式。本文针
学位
问答系统是体现人工智能的一种通用方法,是自然语言处理领域非常重要的一个方向。随着多种媒体数据的积累和深度学习在各个领域取得的突破性进展,跨媒体智能给问答系统带来了新的机遇和挑战。以视觉问答为典型代表的跨媒体问答方向得到了广泛的关注和研究。  视觉问答(Visual Question Answering,VQA)是回答关于图像问题的任务,输入为一幅图像以及关于该图像的开放自由的自然语言问题,输出为文
学位
图像及视频数据包含大量的视觉信息,人类可以利用这些信息进行学习和推理,进一步理解活动规律和社会行为。随着数据的海量涌现,如何从获得的海量冗余的视觉数据中甄别和遴选出关键视觉信息,并为后续视觉语义内容理解和分析提供支持,是当今计算机视觉领域所关注的热点问题,具有十分重要的研究意义。  在这些热点研究中,如何在去除图像、视频数据中冗余背景信息基础上,甄别发现具有丰富语义信息的视觉目标物体,即显著性目标
由于影视和游戏制作等领域的需求驱动,三维人脸重建一直是计算机图形学中重要研究方向。与设计师人工建模不同,三维人脸重建主要从输入数据中自动塑造人脸几何。输入类型主要有:2D数据(图像或视频),2.5D数据(立体图像或视频、深度图),3D数据(点云、网格等)等。其中基于单张图像的三维人脸重建输入设备最简单,输入数据量最少,互联网上的素材量最大,因此在面向普通用户的消费级的应用中也最具有潜力。近年来,随
三维重建是计算机视觉中的研究内容之一。准确快速地获取场景中的三维信息(深度)在逆向工程、机器人、导航、增强现实等领域中有着重要作用。在获取场景深度信息的方式上,相比于较为昂贵的激光雷达、结构光扫描仪等仪器,被动式立体匹配方法通过较为廉价的设备(双目相机)即可获取相对较高精度的深度信息。本文借鉴深度学习、数理统计等理论和方法,深入研究了相机标定以及双目立体匹配算法,并将其用于高精度三维人体模型重建。
人体的视觉感知与理解在安防监控、自动驾驶、人机交互、视频内容分析等方面有诸多的应用前景,因而一直是计算机视觉领域的重要研究课题,受到工业界和学术界的广泛关注。多年来,研究员们围绕这一课题中的关键技术展开研究,并取得了丰硕成果。然而,目前的技术研究大多是聚焦于其中的主流问题,技术覆盖不够全面,将这些技术落地到实际应用场景时,尚存在一些诸如恶劣光照条件下对人体的检测定位不够理想,对人体细粒度行为的识别
学位
使用消费级、低精度的深度相机对三维物体进行快速重建,在智能机器人、自然人机交互等领域具有重要的应用价值。由于消费级深度相机所采集的深度图像精度较低,噪声较大且易产生孔洞,如何实时、交互式、高保真度地重建真实场景的三维模型仍具有一定的技术挑战性。本文对基于稠密深度数据的实时相机跟踪与高精度表面重建进行了深入研究,对三维重建流程的几个关键环节进行了改进和提升,形成了解决方案。主要工作如下:  (1)针
学位
高光谱数据(图像)不仅包含目标的二维空间结构图像,也记录一维几十到几百个波段光谱响应曲线,分别描述目标的空间地物分布和详细光谱特征。高光谱图像上述独特的特性增加了其表示和重构的难度。如何通过恰当的模型假设,把高光谱图像内在的结构抽象为数学模型,有效利用空间信息、谱信息以及空谱联合信息是高光谱图像处理的关键。  高光谱数据是高维数据。低秩和稀疏表示是刻画高维数据低维结构的重要方式。稀疏和低秩假设有助