论文部分内容阅读
随着互联网、智能手机和通信技术的迅速发展,互联网上的文本、图像、视频、音频等多媒体数据快速增长。这些日益增长的数据既为人们生活提供了便利,同时又对信息有效利用提出了挑战。考虑到近年来网络数据中视觉数据所占比重越来越大,网络文档图像数量也快速增长,大量的文本信息隐含在图像中。文档图像内容的识别与理解对于网络信息有效利用具有重要意义。本文研究网络文档图像快速分类技术,主要任务是对互联网上的图像按照图像类型与图像中是否包含文字进行分类,即将网络文档图像分类为自然场景图像(包括有文本/无文本场景图像)、合成图像和纸张文档图像(包括扫描/拍照纸张图像)等几种类型。按照分类的难易程度,首先完成对网络图像的粗分类,将图像分为场景、合成、拍照文档与扫描文档四类,然后按照图像中是否包含文本对自然场景图像进行二次分类。在图像类型分类(粗分类)阶段,通过提取表示图像质量的多种全局和局部特征,建立层次化的分类框架,完成基于类型的快速分类任务;在检查图像中是否包含文字的分类(细分类)阶段,主要针对自然场景图像,通过提取候选文字“角点”的方法,快速定位候选文本区域,然后基于颜色,边缘与梯度等信息提取区域特征,并训练字符分类器对候选区域进行分类从而确定图像是否包含文字。实验表明,本文设计的层次化分类系统,能够快速准确地完成对网络图像的分类任务。本文的研究成果主要包括两点,一是针对网络文本图像的特点设计出一系列快速有效的特征提取算法,并构建一个合理的图像分类系统,实现对网络图像的快速分类;二是建设并发布一个包含四种不同类型的多语言文档图像数据库,内部包含超过40,000张网络图像,供学术界免费使用,进一步推动本领域的研究。