论文部分内容阅读
随着互联网技术的飞速进步以及深度学习展现出强大的性能,基于图像和视频的各种应用也得到了前所未有的发展。然而,伴随着这些应用给日常生活带来便利的同时,也给社会带来了许多潜在的负面影响。因此,如何高效、准确地从这些纷繁复杂的海量数据中甄别出有用的信息和过滤有害的信息,已经是大数据环境下亟待解决的问题。随着深度学习的发展,计算机视觉任务的应用领域也得到了空前的扩展,包括:图像分类、目标识别、目标检测、图像分割、对象跟踪等。本文将在深度学习的框架下,以四个计算机视觉的典型应用为基础,通过结合多种不同的上下文关系,开展面向大数据的视觉内容的识别与分析研究。这四个任务分别是:成人内容识别、特定图像检索、自然场景解析和人像妆容迁移。首先,针对成人内容识别任务中类别空间稀少和正负样本空间内样本多样化导致的分类难的问题,提出基于高层语义的细到粗策略和基于多上下文混合建模的联合决策方案。传统成人内容识别通常都是二分类问题(“是成人”或“不是成人”),而复杂的样本会导致部分样本类内距大于类间距,增大分类器训练的困难。本文提出的细到粗策略,通过在训练中细化类别来改善分类器的性能。此外,通过全局上下文、局部上下文和跨上下文等多种上下文建模方式,从不同的角度去理解样本,最大限度地解决样本多样化问题。与传统特征融合方式不同,策略融合并不直接融合特征,它在最大限度保证基于分类的全局上下文准确性的同时,利用基于检测的局部上下文信息生成置信度较高的决策来尽力修正被误判的样本,从而实现召回率和准确率的同时提高。此外,模块化的设计方案,允许通过更新全局上下文建模或局部上下文建模实现整个网络性能的提升。其次,针对场景解析任务中对象尺度较小、交互性多(遮挡)、隐藏性强(易湮没于复杂的背景中)等特性带来的对象识别困难的问题,提出一种基于深度学习的对象区域增强网络。该网络集成了针对任务设计的两个核心模块:对象区域增强策略和黑洞填充策略。前者将检测到的语义置信度较高的对象区域直接对应到卷积特征图的特定类别通道上的局部区域,并通过加权特征来改进上下文关系,完成对困难对象区域的识别;后者通过屏蔽额外背景类来避免解析网络将部分困难区域判定为额外背景类的错误。此外,模块化的设计方案使模型不但可以通过更换模块实现整体解析性能的提升,还可以将两个策略应用到其他现有的场景解析网络中。然后,针对以人脸解析为基础的典型应用—妆容迁移中的两个难点问题:(1)如何获得精确的人脸解析结果;(2)如何按需保持(如:脸型、五官)和迁移(如:唇彩、眼影)人像的特征,提出了对称加权交叉熵损失和深度局部妆容迁移网络。前者对特定的局部上下文区域进行加权,并强制对眼影、嘴唇等特殊区域进行对称性约束;后者利用不同类型的特征分别描述形状敏感和纹理敏感两种局部区域,最后通过迭代算法逐渐将局部妆容特征从参考人像迁移到未化妆的人像上。端到端的生成网络,不但可以产生自然的妆容迁移效果,还可以实现妆容浓淡程度的自由调节,这使得该系统的可用性大大增强。最后,针对大数据环境下图像检索效率和性能的问题,提出一种基于深度学习的层次化深度语义哈希方案。该网络可以端到端地同时输出样本的高层语义和哈希编码。通过基于概率的语义级相似性和哈希级相似性的融合相似性计算方案,首先利用几乎零开销的高层语义信息过滤大量语义不相关的样本,然后再利用哈希编码在小很多的候选建议集中完成相似性检索。该方案在百万级的Imagenet数据集上,可以保证在检索性能不降低的前提下,实现大约150倍的速度提升。综上所述,本文所研究的多种上下文语义融合策略,不但在计算机视觉的理论层面具有一定的参考价值,更关键的是本文的研究对于设计和开发鲁棒、实用的应用系统也具有一定的借鉴意义。