论文部分内容阅读
摘 要:本项构想拟通过对生物视觉信息共轭关系的研究,提取基于生物视觉物理和生理机制的系谱轴(Paradigm)和毗邻轴(Syntagm)特征,用数学语言描述各特征的主要参数,运用遗传程序设计的编码方法和多目标优化算法计算优化这些参数,构建相应的生物视觉信息处理机制模型,并运用到实际的中华艺术视觉信息数据库建设中。
关键词:视觉信息 数据库 计算机视觉
中图分类号:G203文献标识码:B 文章编号:1673-8454(2009)17-0047-04
一、本项构想的理论依据
现代科学研究表明,信息的产生、获取、储存、传播和处理等都是可以被数学语言描述的,Claude Shannon和Warren Weaver早在1949年出版的著作The Mathematical Theory of Communication中即有论述,生物视觉信息也不例外。近年来在数学语言基础上发展起来的计算机视觉技术为视觉信息的数字化奠定了基础。
计算机视觉是一门充满艰难但又发展迅速的学科。20世纪80年代初Marr等人提出了“视觉是可以计算的”,这一创造性的观点引发了激烈的讨论和全世界计算机视觉研究的热潮。对于人类视觉来说,它是从视网膜感知到的二维图像中提取出有关场景中的三维物体的形状和空间位置等的定量信息;而计算机视觉是研究如何使机器具有类似人类视觉的功能,属于人工智能的重要组成部分,其研究具有双重意义:一方面是为了建立图像理解系统以自动描述真实的图像场景,使计算机等智能系统具有“看”的能力;另一方面也为了进一步理解生物性视觉,运用计算机视觉的计算模拟结果促进对人类自身视觉机理的认识,提升人类视觉认知水平。
计算机视觉技术现在已经被应用到各种智能系统中,如制造业、检验、文档分析、医疗诊断和军事等。一些发达国家,如美国,把计算机视觉的研究列为对经济、科技有着广泛影响的科学和工程中的重大基本问题,即所谓的重大挑战。
目前计算机视觉主要在以下几个方面得到应用:
(1)计算机与人之间的交互。正在兴起的语音识别和字符识别使得传统的交互方式正在发生变革;
(2)自动导航。三维计算机视觉获取外界环境的位置、形状和运动速度,可以用于导弹的末端制导;
(3)生产自动化。装配焊接或者其他作业的机器人在配有视觉系统后具有更高的作业精度和对环境的适应能力;
(4)医学应用。计算机辅助外科手术等;
(5)三维场景建模与显示。近年来计算机视觉和图形学的发展产生了基于图像的建模和真实感绘制技术;
(6)空间探测。NASA喷推实验室研制的视觉系统已经成功应用到火星探测机器人等。
在计算机视觉得到应用的同时,目前的发展还面临着一些困难,进展也比较缓慢。与计算机视觉的应用需求相比,计算机视觉的建模和模拟研究尚处在初级阶段,虽然计算机视觉经过30余年的发展已经建立了一套独立的计算理论和算法,但是它离生物视觉系统的仿真要求还有很大的差距。这也大大制约了其应用,反过来也约束了计算机视觉的发展。分析原因有如下几点:
第一,几十年来,虽然神经生物学、心理学和认知科学对生物视觉系统从解剖学、电生理过程和信息处理等不同角度进行了大量的卓有成效的研究,但是对视觉认知过程的认识还远远不够,尤其是对大脑皮层中各层次视觉信息处理的认识还较为肤浅。
第二,研究表明,大脑神经细胞构成一个极其复杂的巨大的互连网络,这种神经网络在体系结构上与当前计算机体系结构有很大差别,要实现大量的人工神经元的互连网络,目前在技术上仍很困难。
第三,在许多应用场合,视觉系统要观察的环境比较简单,如最早的计算机视觉系统实验源于上世纪60年代,其环境被限制在所谓的积木世界,即周围的物体都是一些多面体,需要识别的目标都是简单的点、线、面的组合。在此基础上开展的计算机视觉研究显然不需要复杂的建模,这也导致大量的研究仍被局限在某些特定场合。
基于这样的原因,很多计算机视觉学者认为,只要从信息转换的角度真正理解了视觉信息处理过程并发展出一套信息处理的计算理论,用哪种体系结构去实现它是次要的。绝大多数学者的研究集中于计算机视觉的人工智能符号论方面,从理论计算机科学的角度去理解和研究计算机视觉,研究成果大都体现为某种具体的算法或者某个具体的应用,它们能够对某个特定的图像类型或者某些特定的场合起到良好的识别效果,但是普适性不足。究其原因,主要是绝大多数学者忽略了生物视觉本身的生理和心理特点,仅仅从视觉图像的物理特征去认知计算机视觉,这必然会导致研究的局限性。
我们认为通过几亿年进化来的生物视觉系统必然有其先进性和合理性。从现有的神经生理学、生物学、心理学、脑科学和认知科学对生物视觉系统的研究成果出发,结合计算机等现代科技工具,利用现有的如图像处理和模式识别等理论和算法,找出生物视觉的机理,才是计算机视觉科学发展的真正方向。
脑科学研究表明:眼睛的晶状体将看到的物象聚焦并上下颠倒呈现在眼球后的视网膜上,如图1所示,在视网膜上散布着许多视杆细胞(Rod)和视锥细胞(Cone)将感知到的物象转换成信息进入到视神经,如图2所示。经图像转换(The Switchboard)、知觉视神经传导,如图3所示,初级视皮层(Primary Visual Cortex)和大脑许多其他的视觉区域继续对视觉信息加以细致的分析,颜色(Color)、运动(Motion)、形状(Form)和深度(Depth)的特性被强化分析,如图4所示。但大脑的识别记忆更为简约化,如图5所示,只有两点:颞叶皮层(Temporal Cortex)的神经细胞对形状敏感:是什么;顶壁皮層(Parietal Cortex)的神经细胞对位置敏感:在哪里。我们的理论出发点是遵从生物视觉信息的客观规律,对初级视皮层处的颜色、运动、形状和深度进行仿真,即使用计算机数字语言进行描述。
Marr立足于计算机科学的视觉计算理论,系统地概括了心理生理学和神经生理学等方面取得的重要成果,依然是目前计算机视觉研究中较为完善的理论。它使计算机视觉研究有了一个比较明确的体系,并且大大推动了计算机视觉研究的发展。按照Marr的理论,视觉过程可以分为三个阶段:早期、中期和后期。对应着三个视觉过程,产生了计算机视觉中的三个层次研究内容:
(1)低层次视觉:表示二维图像中的重要信息,主要是图像中的亮度变化、位置及其几何分布和组织结构;
(2)中间层次视觉:以观察者为中心的坐标系中,表示可见表面的方向、深度值和不连续的轮廓;
(3)高层次视觉:以物体为中心的坐标系中,用由体积基元和面积基元构成的模块化多层次表示,描述形状及其空间组织形式。
目前,大量的研究集中在处理输入原始图像的低层次视觉领域,发展了大量的图像处理技术和算法,如图像滤波、图像增强、边缘检测、线条检测、角点检测等,这一过程还包含了各种图像变换、图像纹理检测和图像运动检测等。对中高层次视觉的研究相对要少得多,而对生物视觉处理机制建模更是鲜见。
作为人类感知系统的组成之一,视觉可以被看作是一种元语言(元语言具有言语的自然属性;语言更多地具有人为属性。元语言也可以被看作是一种生物性图像,具有可被量化的表征形态)。对视觉语言的这种“概念”的形成,并不表现在整个的形体上,而只是在某一视觉构成元素上有强烈的暗示性,但组织这种语言的过程基本是视觉的。为容易使用建立的一种视觉语言模式或建立的一种视觉传播模式,对运行的程序要加以诸多的限制或仅限于视觉界面(或称生物性图像)的共轭关系讨论,这种限制越具体,越容易找到这种函数关系。
這样一种构成关系似乎变得较为清楚,也容易被人们接受。从这里可以看出,在“物理源”与“心理场”之间确实存在着一个共轭界面,它是物理元素与视觉元素转换的关节点。“物理源”与“心理场”如图8所示。
对于视觉语言来讲,图像的构成形式是极其重要的,构成视觉语言的物理元素都在图像的构成形式上——点、线、色彩、影调等,如图9所示。没有这些物理元素,视觉语言就无从谈起。没有这样的“物理源”,其视觉之后的“心理场”就无法获得,甚至连“视觉”也产生不了,我们试图寻找的视觉共轭界面就只能是假设。
视觉界面具有与生俱来的生物特性,又兼备了物理与心理的双重表征特性。视觉界面语言既有指涉性、象征性、类比性特征,又具有痕迹性特征。世界上每一种事物都有其固定不变的物理成分,都有其凸显本质特征的因子。如果将研究的视点锚固在生成生物视觉信息的元素上,通过对视觉界面的量化研究,就可以约简出构成视觉元素的最小公分母。因为任何生物视觉信息都有其共轭的物象,而共轭关系是可以建模讨论的。最严密的科学研究应是任何人都无法对其自身的特征提出异议,而只能考虑其可能性。本研究就是确定可能性和不可能性之极限。人文科学和自然科学的基础都在于感官的认知,通过建立其表述生物视觉特征的颜色(Color)、运动(Motion)、形状(Form)和场深(Depth)等轴向数值,可以将其转换成数字式的分析量值,在定性的前提下取得定量的表征数据,取精用宏、尽微至广。通过建立视觉界面系谱轴和辅助的毗邻轴,我们可以构建一个生物视觉中高层次识别的模型,为计算机视觉应用奠定基础。
具体思路就是:以量化视觉界面系谱轴和毗邻轴为基础,运用遗传程序设计的编码方法和多目标优化算法,计算优化量化目标的各项参数,构建相应的生物视觉信息处理机制模型。
系谱轴和毗邻轴的基本模型如图10所示。
关键词:视觉信息 数据库 计算机视觉
中图分类号:G203文献标识码:B 文章编号:1673-8454(2009)17-0047-04
一、本项构想的理论依据
现代科学研究表明,信息的产生、获取、储存、传播和处理等都是可以被数学语言描述的,Claude Shannon和Warren Weaver早在1949年出版的著作The Mathematical Theory of Communication中即有论述,生物视觉信息也不例外。近年来在数学语言基础上发展起来的计算机视觉技术为视觉信息的数字化奠定了基础。
计算机视觉是一门充满艰难但又发展迅速的学科。20世纪80年代初Marr等人提出了“视觉是可以计算的”,这一创造性的观点引发了激烈的讨论和全世界计算机视觉研究的热潮。对于人类视觉来说,它是从视网膜感知到的二维图像中提取出有关场景中的三维物体的形状和空间位置等的定量信息;而计算机视觉是研究如何使机器具有类似人类视觉的功能,属于人工智能的重要组成部分,其研究具有双重意义:一方面是为了建立图像理解系统以自动描述真实的图像场景,使计算机等智能系统具有“看”的能力;另一方面也为了进一步理解生物性视觉,运用计算机视觉的计算模拟结果促进对人类自身视觉机理的认识,提升人类视觉认知水平。
计算机视觉技术现在已经被应用到各种智能系统中,如制造业、检验、文档分析、医疗诊断和军事等。一些发达国家,如美国,把计算机视觉的研究列为对经济、科技有着广泛影响的科学和工程中的重大基本问题,即所谓的重大挑战。
目前计算机视觉主要在以下几个方面得到应用:
(1)计算机与人之间的交互。正在兴起的语音识别和字符识别使得传统的交互方式正在发生变革;
(2)自动导航。三维计算机视觉获取外界环境的位置、形状和运动速度,可以用于导弹的末端制导;
(3)生产自动化。装配焊接或者其他作业的机器人在配有视觉系统后具有更高的作业精度和对环境的适应能力;
(4)医学应用。计算机辅助外科手术等;
(5)三维场景建模与显示。近年来计算机视觉和图形学的发展产生了基于图像的建模和真实感绘制技术;
(6)空间探测。NASA喷推实验室研制的视觉系统已经成功应用到火星探测机器人等。
在计算机视觉得到应用的同时,目前的发展还面临着一些困难,进展也比较缓慢。与计算机视觉的应用需求相比,计算机视觉的建模和模拟研究尚处在初级阶段,虽然计算机视觉经过30余年的发展已经建立了一套独立的计算理论和算法,但是它离生物视觉系统的仿真要求还有很大的差距。这也大大制约了其应用,反过来也约束了计算机视觉的发展。分析原因有如下几点:
第一,几十年来,虽然神经生物学、心理学和认知科学对生物视觉系统从解剖学、电生理过程和信息处理等不同角度进行了大量的卓有成效的研究,但是对视觉认知过程的认识还远远不够,尤其是对大脑皮层中各层次视觉信息处理的认识还较为肤浅。
第二,研究表明,大脑神经细胞构成一个极其复杂的巨大的互连网络,这种神经网络在体系结构上与当前计算机体系结构有很大差别,要实现大量的人工神经元的互连网络,目前在技术上仍很困难。
第三,在许多应用场合,视觉系统要观察的环境比较简单,如最早的计算机视觉系统实验源于上世纪60年代,其环境被限制在所谓的积木世界,即周围的物体都是一些多面体,需要识别的目标都是简单的点、线、面的组合。在此基础上开展的计算机视觉研究显然不需要复杂的建模,这也导致大量的研究仍被局限在某些特定场合。
基于这样的原因,很多计算机视觉学者认为,只要从信息转换的角度真正理解了视觉信息处理过程并发展出一套信息处理的计算理论,用哪种体系结构去实现它是次要的。绝大多数学者的研究集中于计算机视觉的人工智能符号论方面,从理论计算机科学的角度去理解和研究计算机视觉,研究成果大都体现为某种具体的算法或者某个具体的应用,它们能够对某个特定的图像类型或者某些特定的场合起到良好的识别效果,但是普适性不足。究其原因,主要是绝大多数学者忽略了生物视觉本身的生理和心理特点,仅仅从视觉图像的物理特征去认知计算机视觉,这必然会导致研究的局限性。
我们认为通过几亿年进化来的生物视觉系统必然有其先进性和合理性。从现有的神经生理学、生物学、心理学、脑科学和认知科学对生物视觉系统的研究成果出发,结合计算机等现代科技工具,利用现有的如图像处理和模式识别等理论和算法,找出生物视觉的机理,才是计算机视觉科学发展的真正方向。
脑科学研究表明:眼睛的晶状体将看到的物象聚焦并上下颠倒呈现在眼球后的视网膜上,如图1所示,在视网膜上散布着许多视杆细胞(Rod)和视锥细胞(Cone)将感知到的物象转换成信息进入到视神经,如图2所示。经图像转换(The Switchboard)、知觉视神经传导,如图3所示,初级视皮层(Primary Visual Cortex)和大脑许多其他的视觉区域继续对视觉信息加以细致的分析,颜色(Color)、运动(Motion)、形状(Form)和深度(Depth)的特性被强化分析,如图4所示。但大脑的识别记忆更为简约化,如图5所示,只有两点:颞叶皮层(Temporal Cortex)的神经细胞对形状敏感:是什么;顶壁皮層(Parietal Cortex)的神经细胞对位置敏感:在哪里。我们的理论出发点是遵从生物视觉信息的客观规律,对初级视皮层处的颜色、运动、形状和深度进行仿真,即使用计算机数字语言进行描述。
Marr立足于计算机科学的视觉计算理论,系统地概括了心理生理学和神经生理学等方面取得的重要成果,依然是目前计算机视觉研究中较为完善的理论。它使计算机视觉研究有了一个比较明确的体系,并且大大推动了计算机视觉研究的发展。按照Marr的理论,视觉过程可以分为三个阶段:早期、中期和后期。对应着三个视觉过程,产生了计算机视觉中的三个层次研究内容:
(1)低层次视觉:表示二维图像中的重要信息,主要是图像中的亮度变化、位置及其几何分布和组织结构;
(2)中间层次视觉:以观察者为中心的坐标系中,表示可见表面的方向、深度值和不连续的轮廓;
(3)高层次视觉:以物体为中心的坐标系中,用由体积基元和面积基元构成的模块化多层次表示,描述形状及其空间组织形式。
目前,大量的研究集中在处理输入原始图像的低层次视觉领域,发展了大量的图像处理技术和算法,如图像滤波、图像增强、边缘检测、线条检测、角点检测等,这一过程还包含了各种图像变换、图像纹理检测和图像运动检测等。对中高层次视觉的研究相对要少得多,而对生物视觉处理机制建模更是鲜见。
作为人类感知系统的组成之一,视觉可以被看作是一种元语言(元语言具有言语的自然属性;语言更多地具有人为属性。元语言也可以被看作是一种生物性图像,具有可被量化的表征形态)。对视觉语言的这种“概念”的形成,并不表现在整个的形体上,而只是在某一视觉构成元素上有强烈的暗示性,但组织这种语言的过程基本是视觉的。为容易使用建立的一种视觉语言模式或建立的一种视觉传播模式,对运行的程序要加以诸多的限制或仅限于视觉界面(或称生物性图像)的共轭关系讨论,这种限制越具体,越容易找到这种函数关系。
這样一种构成关系似乎变得较为清楚,也容易被人们接受。从这里可以看出,在“物理源”与“心理场”之间确实存在着一个共轭界面,它是物理元素与视觉元素转换的关节点。“物理源”与“心理场”如图8所示。
对于视觉语言来讲,图像的构成形式是极其重要的,构成视觉语言的物理元素都在图像的构成形式上——点、线、色彩、影调等,如图9所示。没有这些物理元素,视觉语言就无从谈起。没有这样的“物理源”,其视觉之后的“心理场”就无法获得,甚至连“视觉”也产生不了,我们试图寻找的视觉共轭界面就只能是假设。
视觉界面具有与生俱来的生物特性,又兼备了物理与心理的双重表征特性。视觉界面语言既有指涉性、象征性、类比性特征,又具有痕迹性特征。世界上每一种事物都有其固定不变的物理成分,都有其凸显本质特征的因子。如果将研究的视点锚固在生成生物视觉信息的元素上,通过对视觉界面的量化研究,就可以约简出构成视觉元素的最小公分母。因为任何生物视觉信息都有其共轭的物象,而共轭关系是可以建模讨论的。最严密的科学研究应是任何人都无法对其自身的特征提出异议,而只能考虑其可能性。本研究就是确定可能性和不可能性之极限。人文科学和自然科学的基础都在于感官的认知,通过建立其表述生物视觉特征的颜色(Color)、运动(Motion)、形状(Form)和场深(Depth)等轴向数值,可以将其转换成数字式的分析量值,在定性的前提下取得定量的表征数据,取精用宏、尽微至广。通过建立视觉界面系谱轴和辅助的毗邻轴,我们可以构建一个生物视觉中高层次识别的模型,为计算机视觉应用奠定基础。
具体思路就是:以量化视觉界面系谱轴和毗邻轴为基础,运用遗传程序设计的编码方法和多目标优化算法,计算优化量化目标的各项参数,构建相应的生物视觉信息处理机制模型。
系谱轴和毗邻轴的基本模型如图10所示。