论文部分内容阅读
图像和视频中文本字符包含许多非常重要的有用的信息,如街道名称、商店名称、路标、交通标示、字幕等,这些信息对于图像和视频资料的自动注释、索引、压缩等方面重要的参考.图像和视频文本信息提取包括文本检测、定位、跟踪、提取、增强和识别几个部分.目前文字识别各种技术相对成熟并已经投入实际应用.相比之下,如何准确的将文字区域提取出来目前还处于探索阶段.其主要的难点在于:文本存在于复杂背景之中难以区分;文本存在严重的形变和几何畸变;自然环境下由于照度的不均匀、阴影、反射等原因等造成的文本图像的亮度变化.由于存在这些难点,才使得自然环境下的文本理解成为一个值得深入研究的课题.通常情况下根据文本对象的存在形式将文本分为人工文本和场景文本.目前的研究主要集中于对人工文本的研究,而场景文本的研究刚刚起步.文本提取的研究思路主要集中于应用各种图像处理的方法将文字区域的边角特征、色彩特征和纹理特征突出,然后根据一定的分类算法来划分候选的区域,经过进一步的后处理来最终确定实际的文本区域.在本文将文本的检测、定位与提取、作为文本区域提取整体来讨论,包含预处理、特征提取、分类(检测)、生成候选区域、文本区域提取几个步骤来解决文本区域的准确提取问题.在预处理和特征提取步骤中我们比较了应用边缘提取和小波变换来突出文本的边角和纹理特征;从处理后的特征图像中使用滑动窗口分别提取了原始灰度值和统计量作为特征向量.本文使用神经网络作为分类器,通过对比感知器和BP前馈网络的分类效果,选择使用BP前馈网络作为分类器.根据网络分类的结果结合特征图像,通过求取连通域,区域生长,投影分割三个步骤得到包含单行(列)的候选区域.最后使用通过样本统计得到的文本区域长、宽、面积、灰度等先验知识定义了一些判别规则来确定出图像中文本区域的位置.通过实验表明使用DB2小波变换后提取统计特征,经过BP前馈网络的分类可以较为准确的提取出文本区域,得到较为理想的评价指标.