论文部分内容阅读
认清“何处有何物”是人类视觉要解决的核心问题。生理学研究发现,人类视觉系统中存在着两条不同的视觉通路分别处理“何处”和“何物”的问题。本文正是以两条视觉通路为依据,结合脑科学和认知科学的研究成果,利用生物学提供的细节作为约束与指引,把视觉当作一个认知计算问题,围绕生物视觉仿真建模及应用过程中的若干技术问题和难点展开研究,以机器学习的方法模仿生物视觉的运行方式,构建人类认知的视觉模型,解决面临的实际问题。本文的主要工作和创新点如下:第一,本文提出了一个生物启发的、增量式的室外场景分类模型。本文利用初级视觉特征来表征场景内容,结合自主心智发育理论,采用增量式分层判别回归树模拟人类视觉记忆的产生和再忆过程。与传统的仿生室外场景分类方法相比,本文所提出的模型可以通过与环境的实时交互自动学习周边场景的信息,产生知识和记忆,并以动态的方式更新记忆模块,它具有增量式在线学习能力,拓展性强。公用数据集上的实验结果表明,在不同数目训练样本的情况下,本文方法对于公用数据集中场景的分类准确率都接近100%,它不仅可以提高机器视觉系统判别场景的正确率,而且显著减少了训练代价。第二,本文提出了基于原型物体和记忆机制的视觉显著度计算方法。在研究是什么因素影响视觉显著度的问题上,结合生物学对大脑记忆机制研究的新发现,拓展了计算机视觉中“原型物体”的概念,将人、人脸、文本等具有语义信息的视觉特征与显著性点、区域和泛物体特征融合在一起,构成原型物体,并以此作为影响显著度的因素代表进行建模。实验结果表明,充分地利用原型物体特征,可以提高显著度计算的准确性和有效性。第三,本文提出了两种“原型物体特征—显著度”映射函数的构造方法,实现了两种融合策略,以解决视觉显著度计算中原型物体特征在顶层指导作用下的融合问题。一个基于偏向竞争理论,用高斯过程拟合视觉记忆对原型物体特征的影响作用;另一个基于特征整合理论,用支持向量机模拟原型物体特征在顶层知识结构作用下的整合过程。由此提出了基于原型物体和高斯过程的视觉显著度计算模型(POGP)以及基于原型物体和支持向量机的视觉显著度计算模型(POSVM),两个视觉模型适用情况不同,但各自都具有一定的理论和现实意义。公用数据集上的仿真实验结果表明,本文提出的视觉显著度计算模型在定性和定量对比上都优于其它先进模型,更符合人类的注视情况。第四,本文研究视觉预注意阶段的建模问题,提出了基于流形学习的原型物体检测方法。该方法模拟的是视觉信息在大脑中类似流形的处理方式,将进入人眼的视觉信息看作是一个抽象的低维度光滑流形,由于局部流形的致密程度发生变化会破坏流形的平滑特性,而这种变化正是由与众不同的部分样本所决定的,因而,那些破坏流形平滑特性的点在图像中就是显著的,破坏性越强的像素点往往显著值就越高。从这个角度出发,本文以自底向上的方式检测视觉显著区域,并通过实验验证了该方法的有效性。第五,本文将仿生视觉模型应用到智能电网直升机巡检的研发工作中。一方面,设计了一种基于设备显著性的压缩传感成像方法以解决直升机巡检中成像设备造价高的问题。另一方面,提出了一种基于栅格理论的绝缘子检测方法来模拟人类视觉系统的纹理检测模式,以对图像中的绝缘子进行定位。这些仿生视觉的探索和尝试为电力系统的智能巡检工作提供了一些新思路和新方法。综上所述,本文针对人类视觉中的场景感知分类问题和视觉显著度计算问题进行了研究,同时对基于仿生视觉的模型在电力设备智能巡检中的应用做出了初步探索。本文通过仿真实验证实了仿生视觉在解决视觉认知计算问题中的可行性和有效性。此外,本文的研究工作为仿生视觉领域开展更为广泛深入的研究提供了一些思路。