论文部分内容阅读
人类的活动在很大程度上依赖对视场中对象的快速准确识别。尽管对人脑来说很容易,但用计算机实现图像识别却非常困难。图像识别被公认为计算机视觉领域中的一个难题。图像间的相似性度量是图像识别中的基本问题。理想的图像距离度量不仅能准确地区分不同对象,而且能适应对象的平移、旋转、缩放、和非刚性形变等变化。最近研究表明人类的视觉感知是基于流形的。在旋转角度、缩放尺度等因素连续变化时,对象在视网膜上所成的像构成了高维观测空间中的低维图像流形。如何将生物学研究成果用于图像距离度量中具有重要意义。本论文通过模拟人类流形感知过程,提出了基于流形感知的图像距离度量方法,并探讨了其在图像识别中的应用。主要对以下几个方面进行了深入研究。首先提出了基于流形学习和流形高阶近似的图像距离–流形高阶近似距离(HMD)。首先用流形学习算法–最大方差展开方法(MVU)学习出非线性图像流形的内蕴变量,沿内蕴变量方向栅格化非线性图像流形,通过有限差分去近似流形关于内蕴变量的高阶导数,然后用基于流形高阶泰勒展开式的曲面去近似非线性流形。HMD距离定义为图像空间中测试图像与图像流形的高阶近似曲面间的最小距离。HMD能够直接用于基于距离的分类器中,实现图像识别。人脸识别和手写数字识别实验结果表明,与欧式距离、流形切距离和图像欧式距离(IMED)等典型图像距离相比,HMD能适应更大范围的图像变换,并且具有更高的识别精度和稳定性。其次提出了基于Gabor特征的流形近似距离(GFMD),在Gabor特征空间中度量图像间的相似性。图像中的冗余信息会影响图像距离度量的精度,因此用多尺度、多方向的二维Gabor小波提取图像的局部显著特征,组合成图像的Gabor特征向量。用MVU方法学习Gabor特征流形的内蕴变量,然后用基于特征流形高阶泰勒展开式的曲面去近似Gabor特征流形。GFMD距离定义为Gabor特征空间中测试图像的Gabor特征与Gabor特征流形的高阶近似曲面间的最小距离。GFMD能够直接用于基于距离的分类器中,实现图像识别。人脸识别和手写数字识别实验结果表明GFMD与在识别精度和稳定性上要优于HMD和其它基于Gabor特征的典型图像距离,但GFMD的计算量要大于对比的距离的计算量。最后提出了基于视觉注意模型和子流形距离的复杂目标识别模型。选择基于对象积累的视觉注意模型对复杂场景中的复杂目标进行检测。该视觉注意模型通过不断扩展当前视觉关注区域来获取完整的目标。当前关注区域对应的图像块集合构成了目标的多个子流形。在学习阶段,对图像块集合进行聚类,子集分别构成了目标的子流形。用MVU方法获取子流形的内蕴变量,然后用基于子流形高阶泰勒展开式的曲面去近似子流形。子流形距离(SMD)定义为待识别的图像块与子流形的高阶近似曲面间的最小距离。在识别阶段,计算当前关注区域的图像块与目标子流形间的SMD距离,用SMD来控制当前关注区域的扩展策略。遥感图像中复杂目标识别实验结果表明,该识别模型能快速准确地识别复杂场景中的复杂目标。