论文部分内容阅读
如何对多媒体数据进行管理、分类和检索是当今计算机视觉领域研究的重要问题,具有广泛的应用价值和迫切的实际需求。有效的图像特征表示是完成上述计算机视觉任务的基础。过去人们主要通过自身的主观感受对图像加工来获取图像的语义内容,计算机所能提取和表示的图像视觉特征往往不能很好的描述图像的高层语义内容,从而出现了底层特征与高层语义之间的“语义鸿沟”问题。图像特征表示方法的研究是解决“语义鸿沟”问题的有效途径,但是现有的图像特征表示仍然存在语义表达能力弱和判别性不足等问题。因此学习具有结构化特性的图像特征表示具有重要的意义。结构化的图像特征表示能够表达图像丰富的语义内容。于是本文设计了一系列方法学习具有结构化特性的图像特征表示,并在图像检索和分类等任务中取得到了成功的应用。本文具体的研究内容如下:首先,提出增强关系矩阵正则化的方法来改进传统的半监督流形学习降维技术。根据基于图嵌入的流形学习所构建的关系矩阵,探索关系矩阵中数据点之间的近邻关系并且对数据点间“近邻之近邻”的关系进行加强,然后利用概率转移矩阵对增强后的关系矩阵正则化,从而在整个数据集中充分地传播数据间的近邻关系。根据关系矩阵建立目标方程并计算投影向量,实现对整个图像数据集的有效降维,生成具有结构化特性的图像特征表示。最后,利用结构化特征表示进行了基于相关反馈的图像检索实验,提高了图像检索的综合性能。其次,根据现有的词袋模型在构建码书过程中所存在的问题,提出了一种结构保持的增量神经网络学习技术,构造了基于图的码书模型,为后续图像特征的编码提供了更加丰富的视觉单词信息。该方法主要通过在线的方式适应性地学习码书模型,并利用神经网络方法寻找视觉单词之间的关联性,在此基础上采用子图抽取的方法对底层特征编码,得到图像结构化的特征表示。最后利用所提方法进行图像语义分类的实验,提升了图像分类的准确度和计算效率。最后,利用一种基于码书结构增强的适应性局部限制线性编码方法以及几何平滑汇合策略学习图像结构化的特征表示。在编码阶段,利用基于封闭簇的快速近似K-means方法初始化码书,并通过码字周围局部特征的分布动态地更新码书,进而基于码字的密度适应性选择编码基,采用局部限制线性编码方法对特征编码;在汇合阶段,基于几何平滑汇合策略实现对编码特征的汇合,充分地利用了局部特征的几何位置信息,避免了图像空间信息的损失。在图像语义分类实验中,利用标准的分类器对汇合特征进行分类,获得了较高的分类准确率,从而验证了算法的有效性。