基于AdaBoost的复杂背景下场景文本的检测与识别

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:yus520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景图像中的文本信息具有重要的价值,可以应用于图像检索、无人驾驶、视觉辅助等多个方面,是当前计算机视觉领域的热门研究课题。自然场景图像文本提取主要分为字符定位,字符合并,字符识别三个部分,其中字符定位是提取文字的关键步骤,对后面字符识别的准确率有重大的影响。虽然传统的OCR技术已经非常成熟,对文档图像文字的识别准确率达到将近百分之百,但是如果直接应用于自然场景图像的文字识别的话,效果会大打折扣,原因是文档图像一般分辨率高,文字清晰,与背景对比度高,基本不会发生倾斜变形;而自然场景图像中往往包含了大量复杂的背景纹理,并受到光照、字体、拍摄角度的影响,使得文本的定位与识别面临着重重的困难。  本文对自然场景文本检测与识别相关技术进行了研究,提出了一种基于最大稳定区域 MSER 和适应性提升算法 AdaBoost 的自然场景图像文本候选区域检测与识别算法,主要工作包括如下几个方面:  (1)根据自然场景图像的特点,设计了一种能够提高自然场景图像文本获取效率的预处理方法。预处理包括灰度化、平滑和锐化。灰度化可以简化图像,减少算法的计算量,提高算法处理速度;平滑使用了高斯模糊,平滑后可以去除图像的噪声,锐化则使用了拉普拉斯锐化算子,锐化可以加强图像的边缘,突出图像的细节部分。  (2)设计了一种基于最大稳定极值区域的自然场景图像文本候选区域提取方法,该方法通过提升二值化阈值的方法找到图像中的极值区域,计算这些极值区域的变化率得到文本候选区域。  (3)根据获得的文本候选区域的特征,提出了筛选文本候选的三种方法,分别是启发式规则过滤、笔画宽度过滤和基于AdaBoost的分类模型过滤。启发式规则过滤是根据候选区域面积,占空比特征来设定过滤规则;笔画宽度过滤是提取候选区域中文字的笔画宽度,将不符合笔画宽度大小的区域删除;基于AdaBoost的分类模型首先需要通过梯度直方图和局部二制模式提取候选区域的梯度和纹理特征,输入由决策树构成的弱分类器中学习得到分类模型,将候选区域分成文本区域和非文本区域,并采用了 ICDAR-2003图像集进行仿真实验,仿真结果表明,对于自然场景图像中的文字能够较准确地定位出来。  (4)设计了一种字符合并方式和基于Tessact的字符识别系统。通过数学形态的膨胀方法将图像中相近的字符连接在一起,通过连通域分析将连通的字符合并,调用Tesseract进行字符识别。最后进行了仿真实验,实验结果表明,该系统识别准确率较高,具有一定的理论意义和实用价值。
其他文献
无线复眼(WiME)导航是结合了生物学科发现和先进信息技术于一体的新型机器人导航方案。本文主要研究并实现了WiME中机器人跟踪定位的内容,为机器人运动伺服控制提供了实时的决策
在当今的制造领域,越来越多柔性制造系统已经取代了传统的大批量单一种类加工制造系统,而现代企业也越来越多地把柔性制造系统作为提高他们竞争能力的有效手段。因此,怎样能够更好的控制柔性制造系统的加工流程,使得系统中的工件能够更快速,更安全的完成加工流程一直以来都是学术界和工业界关注的重点之一。在这种高度自动化的柔性制造系统中,资源高度共享。当工件进入系统并竞争有限资源时,如果缺乏有效的调度和控制方法,就