论文部分内容阅读
图像理解是计算机视觉领域中的一个核心问题。对图像理解而言,关键的一步是提取图像中构成场景语义结构的特征并将其表征为高层任务容易利用的形式。一种传统的特征提取方法为先寻找边缘,然后形成直线或组合轮廓线。这些特征为图像高层语义的理解提供了基础。传统的特征提取方法在一定程度上取得了很大进展,无论是对边缘检测、直线检测还是对轮廓检测而言,都有大量的新算法已经出现及正在被提出。然而,由于这些算法本质上都是依赖边缘检测的,所以都存在一些显著的问题,如对边缘检测的结果依赖性过高及需要人工设定的参数过多等。一般地说,这些算法都是单纯从计算的角度尝试定义问题,而往往忽略问题的本质,即生物视觉系统如何完成边缘-直线/轮廓检测的生理机制,所以难以从根本上解决这些问题,也就更难以解决基于这些结果的更高层图像理解任务。对人眼而言,视觉场景中最显著的特征就是不同颜色形成的边缘,及边缘形成的直线、曲线及更复杂的形状。本质上,我们看到的直线及曲线都可以看作相同或不同方向的短直线的分段组合。因而,本文将方向(短直线)看作对图像理解最有意义的一种特征。显然,方向这一初级特征高于像素颜色、灰度等底层特征,又低于轮廓等高层语义特征。作为基于神经科学的人工智能和认知科学的跨学科研究,本文尝试利用生物视觉系统检测方向的神经机制,设计一个仿生学的方法,从根源上实现特征提取及表征这一基本问题的解决,进而为更复杂任务提供生理基础。在视觉神经科学中,简单细胞的方向选择性一直是一个热点问题。诺贝尔生理学奖获得者Hubel和Wiesel提出过一个简单细胞的感受野模型,该模型用几何形式的约束解释了简单细胞对条形刺激的方向选择性。一方面,该模型具有简单朴素的形式;另外一方面,该模型也有不少的缺陷,因而受到了许多挑战。尽管如此,目前没有严格的证据直接支持或者否定这个经典的模型。本文在Hubel-Wiesel神经模型的基础上,提出一个方向计算的双层网络模型。与Hubel-Wiesel模型相比,本文模型对底层神经元的限制更少,对刺激形式的要求更低,且实现了每一层计算的细节,因而灵活度更高。数值仿真实验表明,本文模型能够很好地模拟简单细胞的方向选择性。利用方向计算模型,本文进一步提出一个图像的方向检测算法。合成及自然图像实验表明,该算法能够从复杂图像提取出满意的方向图。与传统算法得到的边缘图、直线图等相比,方向图突出显著语义特征而抑制琐碎干扰信息,更接近物体的真实轮廓图,因而促进了分割及识别等高层任务更好更快地完成。此外,本文算法对参数调节的依赖更低、可并行计算程度更高。作为应用之一,本文巧妙地将方向检测算法用于解释几种著名的几何错觉。本文用定性计算的方法从局部探索错觉的产生机制,生成了与人眼观察理解相似的错觉现象,并将这种方法推广到一系列错觉的解释。作为更深层次的应用,本文最后尝试利用单幅图像的方向图,恢复其中场景的部分三维信息,也取得了一定的成果。