论文部分内容阅读
随着成像传感器技术和互联网技术的飞速发展,人们的日常生活中充斥着各式各样的图像信息。如何有效地组织和管理海量信息,快速检索用户感兴趣的图像成为一个迫切的需求。然而图像底层特征和用户上层理解之间的语义鸿沟严重制约了基于内容图像检索的性能。论文围绕弥补语义鸿沟这一目的,从两个方面对图像检索技术开展研究:第一个部分研究图像形状特征中的形状分解基本问题;第二部分研究基于机器学习的图像哈希、分类和相似度分析技术。主要工作和创新如下:(1)提出实现认知心理学中最短割规则的二维形状分解模型。最短割规则指出,在其它条件相同的情况下,人类视觉系统偏好于使用较短的割来分解形状。论文提出实现该心理学规则的计算模型并用于二维形状分解,能够得到符合人类视觉感知的形状分解结果。此外还以心理学实验结果为基础,提出一种定量的形状分解客观评价标准,解决了以往形状分解算法仅依靠少数示例进行主观评价的问题。(2)提出最大方差图像哈希方法。首先分析图像哈希的本质是将高维的图像特征映射成低维的汉明码。然后从非线性降维中的最大方差展开方法出发,提出最大方差哈希目标函数,主要思想是在保持训练样本局部几何结构的同时最大化散列码的方差。之后提出该目标的列生成优化求解算法,并针对大训练样本集下邻域图构造困难的问题,提出基于锚点的改进算法。在图像检索实验中的应用表明该方法消除了不相关样本散列码的聚集问题,能在一定程度上保持图像数据集的流形结构。(3)提出一种单一编码的多分类boosting算法。传统方法通常将多类别分类问题分解为若干个二类问题的组合,所需二值分类器的数量与类别数相关。针对该问题,结合单一编码和最小二乘支持向量机技术,提出单一编码的多分类优化目标。然后以弱分类器组合作为核函数,采用boosting的迭代方法进行求解。算法在图像数据集上的分类正确率较高,训练时间对类别数不敏感。(4)提出一种多特征融合的相似度传播算法。线性多特征融合方法容易导致有用特征被背景淹没,针对该缺陷提出局部线性组合方法:先构建不同特征下训练集的k邻域图,并将非相邻边的相似度置0,然后再进行融合,最后在得到的稀疏图上进行相似度传播以挖掘训练样本集的结构信息。在MPEG-7形状数据库上采用该方法进行“牛眼测试”,首次获得100%的“牛眼分数”。(5)针对图像检索相关学习算法中邻域参数选择的困难,提出一种自适应邻域选择算法。其实质是一个自适应的邻域,邻域半径由加权初始邻域的支配集决定。在图像检索问题中,该方法能够提供与人工试错法得到的最优参数可比的性能。