论文部分内容阅读
互联网时代,大量即时通讯软件、办公软件、购物平台、游戏平台等极大地便利和丰富了人们的学习、生活与工作,同时也产生了海量的多类别、异构性、非结构化的数据,比如视频、图像、音频、超文本等多媒体数据。大数据时代,图像数据以其直观性和信息大的特点数量爆炸性地增长,给人们生活带来极大的便利,但也因数量巨大、质量参差不齐、应用场景复杂等使得人们对图像处理效果提出了更高的要求,因此提高图像语义信息提取与图像检索的性能自然成了研究的热点。提高图像语义信息提取的性能不但要深入挖掘图像本身的视觉特征,还要深入挖掘图像语义标签以及其它具有语义信息的数据对图像语义信息提取的影响,比如图像的轮廓和纹理可能与图像的分类标签关系密切,搜索引擎中的用户点击日志可以在一定程度上反映出图像检索结果的质量,并反过来用于图像的检索优化。本文充分利用多视图/多模态数据对图像语义信息提取的促进作用以优化图像数据的语义特征提取方法,从而提升图像特征维度约简、三维人体姿态恢复、图像检索以及高分辨率图像分类的性能。本文以图像数据的语义信息提取为切入点,以基于超图的拉普拉斯特征映射、自编码器、深度卷积神经网络、图像增强等为技术手段,对多标签数据的特征维度约简、融合点击信息与图像视觉特征的图像检索优化、基于二维图像的三维人体姿态恢复、高分辨率图像分类问题进行了深入的研究。通过充分挖掘图像的多视图/多模态数据对样本间关系、样本语义空间的影响,提升图像语义信息提取与图像检索的性能。本文的主要创新点和贡献如下:(1)针对多标签数据特征维度约简问题,我们提出了融合多视图信息的多标签语义特征提取算法。首先采用去噪自编码器获取多标签数据特征空间的鲁棒表达,然后与不同的标签组合起来构成多标签数据的多个视图;在此基础上基于超图学习理论,融合多个视图中样本间几何关系所对应超图的Laplacian矩阵以提升特征提取的性能;最后通过融合后的Laplacian矩阵的特征值分解得到多标签数据的低维语义空间。实验结果证明本算法所提取的多标签语义空间可以有效提高样本的分类性能。(2)针对图像检索中存在的语义鸿沟问题,我们提出了融合点击数据与图像视觉特征的图像检索优化方法。分为离线阶段与在线检索阶段。首先离线阶段通过挖掘图像的视觉特征并计算样本间近邻关系构建局部批然后进行全局对齐,以构建出对应超图的Laplacian矩阵;在线阶段根据检索原排序以及检索点击日志,在特定约束条件下,重新建模样本间近邻关系并构建对应的超图以及Laplacian矩阵。融合两个Laplacian矩阵所代表的两个低维语义流形,构建并求解图像检索优化目标函数以得到优化的检索排序。实验采用了商业搜索引擎的图像数据以及检索日志,结果表明本算法可以有效改善检索的结果。(3)针对三维人体姿态恢复中存在的语义鸿沟问题,我们提出了基于超图正则化自编码器的三维人体姿态恢复算法。本算法针对二维姿态轮廓的歧义性问题,采用局部性约束构建了改进的自编码器以提高自编码器输出结果的稳定性。该约束通过采用基于样本间几何关系的超图Laplacian矩阵的正则化项来实现。实验结果表明,改善的姿态轮廓特征自编码可以大大降低人体三维姿态恢复的错误率。(4)由于硬件的限制,常规的深度卷积神经网络不能直接处理高分辨率图像分类问题。针对这个问题我们提出了采用图像增强的高分辨率图像分类网络。该网络包含两个子网络:图块网络与图网络。首先将高分辨率图像切分成固定大小的多个图块,经过图像增强后输入到图块网络进行训练以提取单个图块的语义特征。从图块网络提取的单个高分辨率图的所有图块的语义特征组合后输入到图网络进行训练,该网络融合了所有图块的语义特征以及图块间的空间信息来对高分辨率图进行分类。此外,针对深度网络解释性没有常规机器学习方法强的问题,我们结合人工设计图像视图的易解释性与深度网络强学习能力的优点,提出了融合多视图特征的高分辨率医学图像分类网络。本方法首先构建单个图像的多个视图,然后通过构建一个融合网络来融合图像的多个视图以提高高分辨率图像的分类性能。本方法可以有效利用人工知识的积累以及深度卷积神经网络的学习能力,具有较高的实用价值。总之,本文提出的算法通过构建可行的数据多视图/多模态信息的融合方法,有效提高了多标签数据维度约简、图像检索、三维人体姿态恢复以及高分辨率图像分类的性能。