论文部分内容阅读
一般物体识别(General Object Recognition)是视觉(Vision)领域的一个相当困难和根本的问题。目前为止,虽然针对特定物体的识别任务(如人脸检测及识别)已有较为成熟的方法进行处理,但如何设计出一套适用于一般环境一般物体的通用系统,从而接近甚至达到人脑视觉系统的性能,仍然非常具有挑战性。视觉研究本身是一个跨学科领域的问题,涉及到计算机视觉及神经生物学这两个截然不同的学科。本文主要从计算机视觉这一角度出发进行阐述,侧重于数学模型与解模算法设计。内容上,本论文就近年来在此领域内的进展作一综述,并重点分析基于小块(patch)的算法方案;而后以计算机视觉的语言详细解析基于特征组合的仿生学计算模型HMAX,指出其与计算机视觉的紧密关联;接着,本文提出了两种较新的局部改进方案,并完成了相关实验。实验结果表明了这两种改进方案的可行性。本论文的主要工作和创新点包括以下几个方面:1)对于视觉皮层计算模型HMAX,本文详细分析了其四层结构(S1,C1,S2,C2)的算法步骤,并建立它在计算机视觉上的功能对应,即“分块直方图”(S1+C1)级联“直方图”(S2+C2)的结构。在此基础上,本文得到这样的结论:若以“分块直方图”作为组合层数的标尺,HMAX事实上是“一层半”的(有监督的)特征组合模型。2)本文对HMAX的一些算法部件做了改进:针对HMAX中8×8的固定区域划分,本文提出了非均匀划分方案;针对HMAX中随机选取小块(patch)的局部训练方法,本文提出了从整体出发在同类图片中自动选取共同区域的算法。与纯机器学习上的改进不同,本论文更着重于视觉建模的特质,即建模二维图像的结构关系。3)本论文给出了这两个方案的详细解模过程。对于方案a),本文就其一维和二维的情况分别展开分析,一维情况下可以用动态规划(Dynamic Programming)精确快速求解;二维情况下则没有这样好的性质,然而可以利用依坐标下降的优化策略求解。对于方案b),本文以生成模型建模此问题,并用经典的EM算法求解之。对于这两个方案,本文分别实现了上述建模求解算法,并通过一般物体识别问题的建模验证上述算法的性能。计算机实验结果显示提出的算法有不错的效果,在性能上也具有相当的改进。4)针对计算机视觉算法调试麻烦的难点,本论文实现了一个基于小块(patch)特征的一般物体识别交互式平台。使用这个平台,用户能够交互式地选定感兴趣的小块,观察特征抽取及算法的执行过程,并动态地改变执行参数。在工程上,其架构组织及实现上也有颇多创新之处。