论文部分内容阅读
图像理解是以图像为研究对象,以人类知识为核心,主要研究图像中有什么目标、目标之间的相互关系、图像是什么场景以及如何应用场景的一门科学。其主要研究方向有场景中目标的分类与识别、场景描述与理解两个方面。其中,目标识别是为了对场景进行更好的解释,是场景描述与理解的基础,具有主动性。场景描述与理解为目标识别提供先验信息,可以指导目标识别。从本质上说,图像理解源于计算机视觉,但也融合了人工智能和认知学领域的知识信息,是与计算机视觉、人工智能和认知学相互关联又相互独立的研究领域。目标识别作为图像理解的基础,已应用于身份确定、智能交通管理、机动车辆检测等领域。目标识别的任务是使计算机具有对视觉图像进行复杂背景下检测、识别目标并进行分类的能力。但目前用于目标识别的模板匹配、边缘检测和统计等方法都缺乏生物视觉系统的智能性。自20世纪90年代开始,王守觉院士研究分析了人类认识事物的过程,总结出了同源样本的连续性规律,并称之为同源连续性原理,然后将此原理应用到模式识别中,提出了仿生模式识别方法,并由此形成了高维空间仿生信息学理论,该理论的提出为如何利用计算机解决形象思维问题开辟了一个新途径。本文从研究生物视觉系统的工作机理出发,结合王守觉院士关于高维空间仿生信息学的相关理论,构建相应的计算机模型,研究了图像理解中的目标识别与分类问题,针对不同场景提出了多种目标分类与识别方法。实验结果表明,本文提出的复杂场景中目标的特征提取模型以及在此基础上提出的仿生识别与分类方法有效可行。本文的主要工作总结如下。(1)应用神经生物学知识,对物体识别中涉及的各个脑区分别建模,提出了一种基于视皮层不变性识别机制的类表象仿生构建方法;并利用真实图像组成的训练集和测试集对模型和算法进行测试。结果表明,该方法可以在这些样本上建立有效的深层表征并在其上完成类表象的构建。(2)利用心理学中表象的形成与知觉信息处理过程具有很强相似性的特点,本文将表象系统与视知觉系统建立连接,找到识别活动中各层细胞的活动状态,认为表象的构建来源于识别活动中习得的多个神经元集群的活跃状态,并把其作为表象构建的来源和基础——表象基。通过对识别活动中视皮层各脑区细胞的活动状态进行分别建模,并在其上进行高层次的模式记忆和分析,实现了表象基的提取。(3)结合神经生物学关于视皮层研究的最新成果,将物体识别中的不变性问题引入表象式深层表征的目标范畴确定中。利用腹部视觉通路中细胞的“形状调谐”以及“范畴调谐”的特点,对视皮层细胞的特异性和不变性进行了权衡。(4)利用Bag of words模型构造了Codebook高维空间,利用高维形象几何理论,将图像向量映射成Codebook空间中的样本点,并根据仿生信息学的同源连续性原理,使用BP神经网络分类器找到不同类别目标在Codebook空间中的最佳划分,从而提出了一种复杂场景中特定目标的仿生识别与分类方法;并基于该方法设计了不含隐层和含有一个隐层的BP神经网络仿生分类器,通过实验探讨了影响分类器识别准确率的若干因素及其变化规律,并将本文方法与传统方法得到的实验结果进行对比,证明了论文中提出方法的有效性。(5)在研究了人类视觉系统处理机制的基础上,首先利用方向梯度描述符(HOG)建立了图像的鲁棒表示;然后,根据人类视觉系统的并行处理机制和仿生信息学理论,提出了基于HOG+SVM和HOG+RBPNN的两种人体行为仿生识别与分类方法。利用针对识别与分类方法的评价指标对本文方法进行了评价,最后,与目前常用方法进行了比较,结果表明,在针对静态图像中人体行为的分类与识别效果方面,本文方法对差别较大的行为的识别效果好于常用方法,对相似行为的识别效果还有待于进一步提高。综上所述,本文基于人类视觉系统和高维空间仿生信息学理论,提出的复杂场景中目标的仿生识别与分类算法,可为其他目标识别方法和高维空间仿生信息学的研究提供借鉴。