论文部分内容阅读
互联网图像信息数据量的增长迫使我们要开发出更有效率的图像检索技术。目前,最简单和便利的网上检索方式是通过提供文本语义信息,由用户输入交互式查询页面进行检索。然而,在语义层面上的图像自动匹配尚未有令人满意的解决方案。现有的图像检索方案可分为两大类,基于文本的图像检索(TBIR)和基于内容的图像检索。TBIR具有语义相关性,它体现在图像和他所处的背景文本之间的确有语义上的联系;CBIR是语义无关的,除非我们给某个图像特征人工指定一个语义标签。这两种数据都不适合与互联网语义检索引擎所需应对的不断增长的海量数据。TBIR提取的信息太有限,会影响对背景信息的解读从而降低检索结果的精确性;CBIR处理的仅仅是图像特征的相似性问题,它仍然需要一个将语义同图像自动准确对应的机制,而这种机制只是在理论上可行。显然,由于技术上的局限,仅仅依靠TBIR或是CBIR,甚至是两者的简单综合,都无法完成这个庞大的任务。但我们观察到,CBIR方法有数据友好的重要特点,它作为一个图像分析工具来说是必需的;而TBIR则是典型的用户友好型工具,它是对人类语义表达的直接接近。鉴于此,本文提出,在两者之间插入一个中间层是必要的。我们的方案是引入一个类似于语义网络的推理系统,并以开放逻辑(李未)作为维护其庞大知识库中规则和事实的工具。利用这种方法,我们就可以建立起整个图像语义的结构,并构造底层特征和高层语义的桥梁。如果我们把CBIR比作视神经对视觉信息的初步处理,而把TBIR比作我们的语言表达能力,那么我们就可以说,这个推理系统的作用相当于人的大脑。我们都知道,人脑是人类最终要的器官,也是我们智慧的秘密之源。