论文部分内容阅读
物体和场景识别在基于内容的图像检索,自主机器人导航,医学图像分类等领域有着广泛应用。本文从近些年视觉认知的主要进展出发,对认知中的关键技术进行了探索,力图进一步提升认知准确率。经典的物体、场景识别可以分为特征描述和特征判别两个部分,前者力图得到关于物体的最具判别意义的表达,而后者通过对训练样本的学习,得到不同类别判决函数的计算模型。同样,这一框架也适用与视频目标的自组织识别。然而,视频目标具有其独特特性与挑战:?视频中目标特性往往经历长期渐变的过程,故而其特征也必然经历这一变化过程。这就要求对于特征有效性的分析必然是一个递进的过程。?视频中目标往往伴随场景出现,即目标和背景具有很强的相关性。如何利用这一相关性,提高识别性能,也是面临的挑战之一。然而现有物体识别方法性能与人类相比仍然有着巨大的差距,研究表并没有证据表明人类模式识别的算法比标准机器学习算法优越,并且人类并没有过多依赖于训练数据的量的大小,故而影响人类认知精度的关键可能在于特征的选择。事实上,相对于特征判别的学习方法,特征描述在物体识别的性能中起着更加重要的作用。为此,研究重点之一集中在如何有效描述视频中目标特征这一问题上。一方面,目标特性的渐变要求建立目标特征的在线评价机制:特定特征可能仅仅在特定时间段内有效;另一方面,目标与场景的相关性,可以通过场景全局特征与目标局部特征的混合表达实现。研究以词袋模型为起点,将高维特征视为一维特征的叠加,进一步将一维特征视为未知概率分布的观测。故此,特征有效性的在线评价转化为概率密度的在线估计和比较问题。借鉴了蒙特卡洛方法的思想,实验采用混合高斯模型逼近该概率分布,以KL距离为主要度量方式,从互信息的角度将特征递推的认知过程分析分为特征的鲁棒性分析和对决策结果的影响分析,初步探索了在线特征评价模型。在特征评价机制的基础之上,研究过程中,仔细对比和分析不同特征描述模型的优缺点,设计了基于混合表达的视觉认知模型。该模型分别对场景全局特征和目标的局部特性表达进行了融合,进一步挖掘了场景与目标特性的相关性,实现了视频目标的在线自组织识别过程。文章结尾展示了初步探索结果,并对其深入分析。