论文部分内容阅读
视觉感知与编码是神经计算科学研究的基本问题之一,其主要任务是以神经生理学和认知科学的研究成果为基础,模拟人类视觉信息处理的神经模式,从计算的角度研究新的计算原理和视觉信息处理系统。视觉信息处理机制和计算原理的研究不仅对揭示神经计算原理、建立新型计算模型具有重要的理论意义,而且对推动新型信息技术的发展,如人工视觉系统、失明患者的视觉功能修复、机器认知、新型人机交互模式等也具有重要而积极的作用。另外,在模式识别、身份验证、安全监控、智能的人机交互界面等领域也有广泛的应用前景。本文从稀疏编码的思想出发,以自然图像或序列作为训练数据,学习初级视皮层中简单细胞和复杂细胞的时空感受野及其自组织拓扑图,进而在较高级视皮层层次构建视觉感知模型来感知外界图像刺激中的内容信息、平移、旋转、缩放等运动和变换信息。本文的主要贡献和创新点体现在以下几个方面:为表征自然图像的统计特性,引入独立分量分析方法,以线性生成模型作为表征模型,从自然图像中学习图像基函数,这些基函数具有局部化、朝向性及带通滤波性,与神经生理实验发现的初级视皮层简单细胞和复杂细胞的感受野特征类似。由此得到的独立分量系数可作为神经元的响应,其概率分布满足稀疏性和超高斯分布,通过引入相邻神经元响应的二阶相关性,推导出基于自然梯度的自组织学习算法NGTICA,从自然图像中学习得到简单细胞感受野的空间拓扑结构。针对提取时空特征问题,提出一个基于视皮层不变性表示的时空特征提取模型。对NGTICA学习算法进行扩展,得到适用于该模型的时空基函数学习算法STICA。该模型可从具有时空结构的自然图像序列和视频序列中提取相应的平移、旋转、尺度变化、视角变化等时空特征。进一步研究了以这些时空特征作为复杂细胞感受野时,神经元的响应具有稀疏性和超高斯性。为感知外界刺激中的内容和平移运动信息,我们对视觉系统中的what和where通路建模,提出了一个三层的内容与平移运动感知模型,并给出内容感知算法OPA和平移感知算法TPA。初步的实验结果表明,用理想刺激加入不同噪声生成外界刺激,该模型可以感知到其中的朝向信息及平移运动方向和运动速度等。提出的感知模型及感知算法具有良好的鲁棒性。提出一个旋转运动感知模型,用于解决刺激序列中的旋转变换信息感知问题。以神经元响应的相关度作为不变性衡量指标,提出了旋转运动感知算法RPA。通过深入研究,我们把该模型提升为一个运动感知的泛化模型。当给定不同的运动时空基函数作为神经元的感受野,该泛化模型就可以特化为感知某种运动信息的模型。人脸视角估计是人脸识别任务中的一个重要预处理步骤。为解决人脸视角估计问题,我们从视觉感知机理出发,提出一个全新的基于独立分量分析的人脸视角感知模型。首先将STICA学习算法应用到多视角人脸数据集,得到多视角人脸基函数,作为神经元感受野。应用神经元发放率统计方法,提出人脸视角感知算法,并得到较好的感知实验结果。对神经元的响应进一步分析发现,对不同视角的人脸刺激,神经元的响应在高维空间中具有流形结构。这一结果为感知算法的成功应用奠定了良好的理论基础。考虑到人脸图像受光照、表情、视角、年龄等多种因素的影响,我们用张量分解方法同时提取人脸图像中的多因子表征,进而构建一个基于张量分解的人脸视角感知模型。以张量基空间表征与视角因子的相关性作为度量指标,提出了相应的人脸视角估计算法,得到的结果优于基于独立分量分析的方法。