论文部分内容阅读
随着图像获取技术与图像存取技术的进步,尤其是Internet上图像数据的急剧增加,出现了“图像数据极大丰富,但有关图像的信息与知识贫乏”的局面。人类对能从图像数据中自动抽取有意义的语义信息与知识的图像挖掘理论与系统工具的需求口益迫切。这一需求迅速引起了数据挖掘、信息检索、人工智能、多媒体及其它相关领域研究人员的注意,并将数据挖掘技术引入到图像研究领域,去发现隐藏在大量图像数据中的信息与知识,从而指导基十图像信息的决策行为。从图像理解的角度出发,也会很自然的将数据挖掘与图像理解结合在一起,从而研究图像挖掘。参考Fayyad对数据挖掘的定义,不难得到图像挖掘的概念描述,图像挖掘就是从复杂的图像数据中抽取隐藏其中的、有效的、新颖的、潜在有用的并最终可被用户理解的语义信息与知识的非平凡过程。图像挖掘是一种图像理解的关键技术与方法。图像挖掘目前存在的主要问题包括:1.系统框架模型:图像挖掘需要一个通用型的系统框架模型。2.图像预处理:图像挖掘领域中的挖掘对象不仅包含复杂的图像数据,并且还有与图像有关的文本数据。用传统的关系模型来直接表示图像数据,效果并不是很好。因此,要对复杂的图像数据进行挖掘,首先要对之进行复杂有效的预处理。本文主要围绕图像挖掘及其关键技术开展了研究工作,其主要研究内容与贡献如下:1.本文提出一种更简单实用的知识驱动的图像挖掘框架模型,该模型的特点是在图像挖掘产生的回溯过程中可利用前面所有步骤或者后面相邻步骤已经分析发现的模式或知识。并且用户可以通过图像样本训练和交互式学习与整个框架模型产生互动,随时对现有领域知识进行补充和学习。2.本文提出了一种采用特征组合挖掘文本图像的方法,适用于多种文本图像,如场景文本图像、标题文本图像和文档图像。自然的文本场景图像含有重要的语义信息,如街道名称、机构、商店、路标和交通信号等。新闻视频中的标题文本通常解释了所发生事件的地点、时间和人物。体育视频的副标题会注解比分和选手信息。而文档图像则兼具图像与文本,但文本与图像可分离。区分不同类型的图像具有重要的意义,可在各种实际应用中采用最相关的图像,如为盲人提供可辨认街道标志牌的“智能眼镜”,在新闻视频中注解报道内容以及自动追踪车辆移动,也可应用与机器视觉相关的其他领域。