论文部分内容阅读
精确、有效的图像识别技术是视频搜索、图像搜索、家用机器人等应用急待解决的问题。图像识别的研究分支包括物体检测、图像分类、基于内容的图像检索、自动图像语义标注等。相关研究表明,建立具备良好推广性的机器学习模型是图像识别的关键问题。本文主要针对其中的半监督聚类和距离函数学习进行了深入的研究、分析及讨论。人工标记样本的分布相对于整个图像特征空间极为稀疏,属于典型的小样本学习问题;而经过特征提取后的图像表达通常维度极高,模型复杂,所以无监督聚类很难获得满意的聚类结果,需要一定的监督信息以提高聚类精度。多球体支持向量聚类(MSVC)方法是一种无监督聚类分析方法,它在高维特征空间中解决聚类问题,对于非线性可分数据集的聚类具有明显优势。因此在MSVC的基础上增加一定的监督信息,形成处理复杂图像聚类问题的半监督聚类方法是非常有利的。另一方面,距离函数学习可以有效地改善图像的分类及检索性能,但现有的学习方法在学习图像特征包的距离函数时丢失了特征间的统计信息,且缺少示例图像的选择机制。为解决上述问题,本文提出了广义的图像距离函数及其学习方法,并采用上面提出的半监督支持向量聚类方法解决了示例图像的选择问题。除用于解决图像多分类问题外,广义图像距离函数的在线学习方法还可以解决多特征图像检索中的相关反馈学习问题,具有较高的实际应用价值。具体来说,本文的主要工作包括:(1)将相对比较约束(Relative Comparison)引入支持向量域描述(SVDD),并以此为基础提出一种半监督支持向量聚类算法——相对比较约束下的多球体支持向量聚类算法(RCS-MSVC)。该方法将所有样本点通过核函数映射至特征空间,并应用类似于k-means的迭代优化算法在特征空间中进行聚类学习。RCS-MSVC在特征空间中考虑聚类的描述以及样本间约束,在复杂的、非线性可分的数据集聚类问题上具有明显优势。(2)提出一种基于RCS-MSVC预处理的图像聚类索引方法(RM-INDEX)。该方法给出了两种图像类—图像的相似度函数,解决了层次RCS-MSVC下的聚类排序问题,研究了RM-INDEX方法的参数选择问题,实验结果表明,该方法在不同距离函数下均能有效地改善图像检索性能。(3)为解决现有距离函数学习方法在学习图像特征包距离函数时的统计信息丢失问题,定义了三种不同类型的广义图像距离函数(GIDF):全监督约束下的距离函数以及两种多示例约束下的距离函数。给出了各种距离函数在相对比较约束下的学习方法。在处理图像二分类问题时,通过距离函数学习得出每一个训练样本的广义图像距离函数,然后应用自适应增强(Adaboost)方法组织成强分类器。(4)针对图像多分类问题,提出了基于RCS-MSVC预处理的广义图像距离学习框架(RM-PREC-GIDF)。该方法利用了RCS-MSVC生成的支持向量集合解决了示例图像的选择问题,同时将全局的图像分类器分解为一系列局部的图像分类器,使得测试样本的分类仅与该样本邻近的图像类内部广义图像距离函数相关,提高了学习和分类效率。(5)以RM-PREC-GIDF多分类方法为基础,针对高清图像中的车牌定位问题设计了一种车牌分类器及车牌定位系统。该系统在改进的最大极值稳定区域(MSER)提取车牌特征,包括颜色直方图以及水平、垂直投影直方图,然后由基于RM-PREC-GIDF学习的多分类器实现车牌分类及定位。该方法不受车牌大小限制,具备良好的实用性。(6)以现实中的电子商务数据库为对象,研究了多种特征下图像检索中的相关反馈学习模型。它以GIDF为基础,实现特征权重的在线学习。为满足检索过程中的并行化计算,设计了一种支持反馈学习模型的轻量级多特征图像并行检索框架VU-Server。实验表明,在千万级数据量下可以很好的满足商品图像检索服务。