基于无监督深度模型的特征表达和图像压缩

来源 :山东大学 | 被引量 : 0次 | 上传用户:qq0123456456789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习在计算机视觉领域取得了前所未有的成功。目前绝大多数的应用都深度依赖于大量的标签数据,这极大限制了深度神经网络的适用性。与主流的神经网络训练方法不同,一个普遍的共识是人脑的学习主要以无监督的方式进行,而监督信息则通过反馈的方式强化神经学习。尽管我们并不完全理解人脑的工作机制,但我们的目的是探索像人脑一样无监督学习的方式,它可以从大量无标签视觉内容中自动提取丰富的抽象特征,提升智能视觉机器的自我学习能力。这种无监督特征与各类视觉任务结合可以提升学习的质量,从另一方面也帮助我们更好的理解人脑和人工智能。本文提出了一种基于视频中目标实例稀疏分解的无监督学习模型,并将此模型应用于目标发现和图像分类任务中。此外,本文还提出了一种无监督对抗学习的可变长图像压缩算法。本文的主要工作与创新总结如下:
  1.提出了一种基于视频中目标实例稀疏分解的无监督特征学习模型UnsupV。目前绝大多数的无监督特征表达模型以静态图片作为训练数据,而视频中目标在时间维度上的形态或者空间变化包含了更为丰富的训练信息。另一方面,我们假设大多数的目标实例可以在某个特征空间中稀疏表示,从而可以实现实例到图片级别的重构和多层级的非监督特征学习。本文利用视频作为无监督学习的数据源,使用神经网络学习视频的稀疏性表示,在没有任何标签的情况下模型可以将视频中的目标实例进行稀疏分解,学会区分不同实例并提取实例特征。这种方法从视频中进行学习训练,可以直接对单独的图片进行无监督特征提取。在验证实验中,本文采用了一个相对简单的场景,其中每个图像大致由前景和背景组成。基于编码器-解码器的网络结构分别稀疏表示前景、背景和分割掩码,通过重建原始图像对模型进行端到端的训练。在大规模视频数据集YouTubeObjects的实验结果表明,模型UnsupV可以在完全无监督的情况下将视频帧的前后背景分离,并准确定位和分割前景中感兴趣的目标,验证了模型UnsupV提取高级视觉特征的能力。
  2.无监督模型UnsupV强化目标发现和图像分类任务。模型UnsupV应用于目标发现任务中,只需将单一图像一次性送入前馈网络即可快速得到感兴趣目标的分割图,较传统算法缩短了计算时间。在数据集ObjectDiscovery、MSRC和iCoseg的实验结果表明,模型UnsupV在训练数据不可见类别的图像中仍然可以获得高质量的分割图,解决了传统算法对同类目标图像序列的依赖,验证了无监督模型UnsupV的泛化能力和特征表达能力。在图像分类任务中,本文提出了原始图像与分割图融合、特征表示的分类性能和训练标签受限情况的三种方式来评估模型UnsupV对分类任务的强化能力。在Cifar10数据集的实验结果表明模型UnsupV可以辅助分类任务提升分类准确率,减少对标签数据的依赖。
  3.提出了一种基于无监督对抗学习的可变长图像压缩算法。目前基于神经网络的压缩算法主要采用固定输入长度和固定输出长度的方式,这导致一些低信息量的图片无法充分压缩,而一些高信息量的图片在解压缩后会出现明显的失真。针对这个问题,本文提出一种只需训练单个网络便可实现自适应可变长编码的压缩算法。首先,算法使用自动编码器和生成对抗网络的融合框架,通过指数加权结合L2损失和对抗损失,使得解压缩图像在像素距离接近原始图像的同时保证视觉感知的语义真实性。其次,提出一种噪音干扰机制实现编码层节点的可控学习,使得网络训练结束后编码层节点按照其特征表达的重要性从上到下依次分布。基于这种重要性分布,当输入测试图像时,网络可以自适应的丢弃相对不重要的节点来满足压缩要求,实现可变长压缩。在数据集UTZappos50K和CelebA-HQ的实验结果表明,提出的算法只需一次性训练单个网络便可实现可变长压缩,并且在极端低比特率的情况下,网络仍能恢复视觉真实的高质量解压缩图,压缩性能高于传统的JPEG和JPEG2000算法。
其他文献
百年来,车辆带来诸多便利的同时,因为疲劳驾驶或人工操作失误人工操作失误而造成的交通事故不计其数,产生了巨大社会伤痛和巨额经济损失,人们憧憬着无人自主驾驶车辆带来社会生活进步。同时,作为汽车产业和人工智能发展必然趋势,无人自主驾驶不仅能为汽车产业带来巨大市场利益,而且是人工智能一定要征服的高峰。近年来,越来越多无人驾驶出租车、摆渡车、移动零售车出现在城市道路,公园广场等常见生活场景。  车道线作为道
学位
基于图像的人体行为识别是将计算机视觉和人工智能相结合实现人体行为识别的一种智能化技术,其已广泛应用于特殊人群监护、人机交互等领域,并已成为人工智能的研究热点之一。  目前,基于图像的人体行为识别技术的研究主要基于单分类器,通过优化特征信息、改进识别算法来实现。其虽然取得了很多研究进展,但在模型的通用性和准确率的提升方面仍存在研究瓶颈。单个分类器通常只针对训练好的几种行为的识别效果好,行为种类变化后
学位
近年来,随着可穿戴设备的增多以及互联网技术的发展,人与人之间的信息交互方式发生了巨大改变,由于图像、视频等多媒体数据具有更加形象生动的特征,所以可以更好地满足广大智能媒体用户的需求。然而,随着多媒体数据的爆发式增长,导致了一系列信息检索与空间存储问题。  视频摘要技术利用计算机自动地从原始长视频中提取关键的图像帧或视频片段作为重点摘要内容,使得摘要后的视频总时长缩短,同时还能够将用户认为的重要内容
学位
工业技术在国家综合生产能力体系中占有举足轻重的地位,工业和制造业的发展是一个国家经济实力的重要体现。近年来,随着我国工业化进程的加快和中国“智能制造2025”的推进,工业互联网成为重要的网络基础设施,众多新型工业计算密集型应用也开始涌现,如工业目标检测(Object Detection),人脸识别(Face Recognition),多媒体(Multimedia)传输等等。同时,伴随移动互联网和无
学位
双目视觉技术在计算机视觉领域中仍然属于较火热的研究课题,其在三维重建、机器人实时导航以及自动驾驶中有着广泛的应用。立体匹配在双目视觉中具有举足轻重的地位,其匹配结果的精度将直接影响最终视差图的精度,因此提高双目视觉中立体匹配的精度对促进双目视觉技术的发展有着重要意义。本文主要研究了如何将卷积网络应用在立体匹配中,并改进了网络结构和后处理方法,提高了算法性能,本文主要工作分为以下方面:  (1)对双
三维点云因其强大的三维空间表征能力,近年来被广泛应用于如自动驾驶、数字博物馆、机器人、医学等领域。三维点云是可由三维扫描设备或摄像机等获取到的能够描述物体表面特征信息的由海量点组成的集合,每个点一般包含几何位置及颜色信息,且点和点之间不存在拓扑关系,没有顺序,因此能否通过有限的网络带宽快速的将三维点云数据传输到用户终端中是解决三维点云数据能否实地使用的先决条件,如何有效的对点云数据进行压缩成为解决
学位
随着智能手机的普及以及物联网的兴起,移动设备数量以前所未有的速度增长。人们对于无线网络的速度和质量有了更高要求,现有的网络通信技术已无法满足人们的需要。具有高可靠性、低时延、高吞吐量等特性的第五代移动通信技术,极大满足了万物互联时代的通信需求。毫米波通信作为5G的关键技术之一,极大地缓解6GHz以下即将耗尽的频谱资源。然而毫米波在传输过程中有着严重的路径损耗,为了使得毫米波实现几百米范围内的通信,
学位
广域网(Wide Area Network,WAN)作为将不同地域的网络系统连接起来的远程网络,在整个计算机网络的体系中扮演着重要的角色。近年来,各种新的网络应用呈现井喷式发展,网络流量持续增长,传统的网络流量调度方法难以满足当前的网络需求。软件定义网络(Software Defined Network,SDN)架构的出现为网络优化打开了新窗口。通过将控制平面集中起来,获取全网视图,可以对流量进行
随着5G万物互联时代的到来,移动通信业务量呈现出爆炸性的增长趋势,多输入多输出-正交频分复用(Multiple Input Multiple Output-Orthogonal Frequency Division Multiplexing,MIMO-OFDM)技术由于能够显著提高频谱效率和增强系统可靠性而被广泛研究。信号在无线信道传输时会受到多径衰落、多普勒扩展、加性高斯白噪声(Additive
在信号处理中,滤波器可以用来提取或去除信号中的某些频域成分。由于易于设计实现,应用起来便捷高,数字滤波器被广泛的应用到各种信号处理领域。在一些数字信号处理领域,如数字通信系统中的信号处理、音频信号处理、生物医学信号处理等,需要具有可变频谱特性的滤波器对信号频谱进行动态的操作。这些种滤波器的实现离不开具有可变带宽的可变滤波器。较宽的带宽可变范围,较低的复杂度,灵活的参数控制是可变滤波器的设计目标。