论文部分内容阅读
机器视觉(Computer vision)是研究如何使计算机对图像数据产生智能化感知的一门科学。物体识别在机器视觉领域属于一项基础研究,对图像理解目标的实现起着至关重要的作用。有效的物体识别算法是包括图像检索、视频监控、医学图像处理、工业机器人在内等众多应用领域的前提与基础。物体识别技术推动着工业、医学、交通、国防等领域朝着自动化、智能化方向快速前进,并有可能从根本上改变它们的发展模式;随着相关科学技术在应用层面的普及,它甚至走进了人们的衣食住行当中。然而,物体识别技术仍然处在一个快速发展的初级阶段,或许对于某些特定的应用可能有一些专门的解决方案,但是一个通用的鲁棒的理论和算法框架尚未出现。本文讨论了笔者在这个课题上的一些研究工作。首先,第3章提出一个简明的基于形状点特征的物体识别算法。在该算法框架中,对传统的形状上下文描述子做了两方面的改进,并且基于改进的形状特征在图像中寻找局部匹配。通过一种通用的霍夫变换投票过程,将匹配结果组织起来产生物体检测的假设。特征改进的主要目的是为了避免背景对物体形状特征所产生的干扰,以及使特征对物体形变有更好的容忍度。这种利用先验模型在图像中寻找可能物体假设的过程是一种自顶向下的识别过程,它一般会有较高的识别率,但是精度不够理想。为了有效提高识别的精度,在第一步识别的基础上使用分类器方法对识别假设进一步辨别真伪,并结合自底向上的图像分割信息获取物体在图像中的前景区域。背景杂物一直是影响物体识别性能的重要因素。基于中心点和邻域的图像特征由于背景杂物的存在,往往导致有用信息被严重破坏。大部分的识别方法会采用学习的策略,通过海量的训练数据来教会计算机记住特征中的哪些维度是重要的,哪些维度又应该是忽略的。第4章中提出了一种新的方法,可以有效克服背景信号的干扰,并且对某一类物体只使用单一的训练样本。使用自底向上的轮廓线作为基本的图像元素,并采用很大的领域范围来提取形状特征是本方法的一个特色。选择很大的领域范围事实上加重了背景杂物对有用信号的干扰,对一些形状狭长的物体来说尤为严重。为了解决背景干扰物问题,本文中的方法模仿人类视觉中的选择机制对轮廓线进行组合选择,利用选择出来的轮廓线生成形状特征并与模型进行匹配。从实验结果可以看到,通过该方法选择出来的特征可以很好地从特征维度中去掉背景信号,达到最终的识别目的。在选择匹配的过程中保证了轮廓线底层语义的完整性。物体识别的层次不仅仅是判断图像中是否存在某类物体,或者物体在图像中所处的位置等等,还包括对物体更高层次的理解,姿态分析便是其中之一。第5章提出了一种同样是基于选择的姿态分析算法。不仅对图像中的轮廓线进行选择,对模型姿态参数也进行选择。通过匹配从图像中选择出来的轮廓线与从模型中选择出来的姿态来判断其合理性。实验中,该算法被应用在一组棒球运动员的图像数据库上,并取得了很好的效果,可以得到较为精准的姿态判断。第6章讨论的内容是物体识别的一个子课题:轮廓线聚类。不同于利用轮廓线选择进行自顶向下的物体识别(本质上是利用模型把前景轮廓线聚为一类),这里的轮廓线聚类仍然是一个自底向上的过程。文中的方法期望把轮廓线进行某种聚类以得到更高一层的图像信号表示。方法选取了另外一张相关的图片(深度相关、运动相关、相似图片)来帮助完成这个目标。在交通领域中,街道场景一直是视觉算法应用的重要场合。第7章利用一种混合的识别方法对街道场景中的物体进行了识别。这些物体包括交通灯、路标、路灯、消防栓、树木以及汽车。由于这几类物体内在的属性并不一样(有的物体是刚性物体,有的是由纹理组成,有的则是半刚性或者容易变形),本文因地制宜地采用了不同的方法来检测不同的物体类别。文中列出了对这几类物体的检测结果。形状特征的提取主要基于边界信息。为了能够得到清楚的边界信息,从而增强形状特征的描述能力,第8章提出了一种能够自适应调节参数的图像扩散算法。该算法的目标是在保持图像结构的前提下去除图像的噪声,特别是一些随机噪声与纹理噪声。本文设计了一种新的核函数来增强图像结构的保持性能,并且在实现中利用自底向上的图像分割信息自适应地调节核函数的参数。从实验结果可以看到,这种扩散算法可以增强边界检测的结果,从而改进形状特征的描述性能。