论文部分内容阅读
文本是计算机视觉的许多应用中的一项重要特征。图像中的文本存有很多有用的信息,对视觉内容理解和获取至关重要。文本定位是文本提取的一个重要步骤。文本提取的主要目的是将文本图像转化为符号形式,从而利于修改、存储、检索、利用及传输。其中关键点和难点就是准确快速的文本定位,原因在于自然场景的复杂多变性容易影响定位效果,且主流手机设备硬件资源也限制了现有的定位算法(基于区域、纹理、边缘的方法,或结合三类方法优点进行融合的方法)的实践应用。随着多媒体技术和智能手机设备的发展和普及,基于手机设备的文本分析也有了较大的需求,然而基于手机设备的图像处理技术没有通用的框架,本文是在没有成熟的算法和应用的背景下,进行一次探索性的研究和应用。本文主要针对基于Android智能手机设备自然场景文本分析进行研究,实现和改进了一种图像文本定位算法,可以准确快速地定位图像中的文本区域,同时提出一种基于SWT的图像二值化方法。在本文的文本定位算法中:第一,我们给出了输入图像SWT(笔划宽度变换)的详细步骤,并改进了滤波的过程,计算复杂度与边缘像素呈线性关系,具有计算简单的优点;第二,在笔划宽度变换的基础上提出了中文合并算法,解决了传统合并算法处理中文合并时效果不甚理想的问题,基于SWT(笔划宽度变换)提出一种图像二值化方法。同时,本文又重点研究了在Android平台上文本定位程序的开发:第一,考虑到手机设备的硬件条件,利用和修改了其中的一些模块,应用OpenCV图像处理函数库,实现了图像文本提取系统的核心模块——文本定位模块;第二,应用MVC软件设计模式并实现了基于Android平台的文本定位终端软件。并通过ICDAR和本文的数据集,检测了算法的定位效果。本文的设计思想和方法对文本定技术研究和产品开发具有一定的参考价值。