论文部分内容阅读
随着数字科技的迅速发展,从彩色图像中提取文本信息的研究越来越受到人们的关注。图像中的文本信息可以作为图像资料的自动注释、索引、压缩等方面的重要参考。在过去的40年里,文档图像处理和理解已经有了广泛、深入的研究。这个领域的工作覆盖了许多不同的方面,包括预处理、物理的和逻辑的排列分析、OCR/ICR、图像分析、签名验证和作者识别等,而且在很多领域被应用,如办公自动化、数字图书馆等。通常情况下,研究者根据文本对象的存在形式将图像中的文本分为人工文本和场景文本。在传统的识别方法中,文档图像是通过扫描纸张得到的,这些文本主要是人工文本。对于人工文本的研究已经有大量的文献。近来,人们越来越倾向于使用数码相机、数码摄像机等数字设备得到文档图像或者获得场景图像,这就对文本提取领域提出了新的问题。本文针对自然场景中的文本区域定位这个问题来进行研究,包含预处理、特征提取、分类器分类、候选文本区域生成和候选文本区域分析五个步骤。在特征提取和分类器分类阶段,我们使用方形区域内“米”形范围内像素点的灰度值作为输入特征并使用MLP网络将像素点分为文本像素点和非文本像素点,该方法避开了特征构造和选择的复杂阶段。在候选文本区域生成阶段,我们针对MLP网络对像素点分类后得到的二值图像的特点提出了使用投影法产生候选文本区域的方法。投影法与传统的使用连通域生成候选文本区域的方法相比,可以避免出现区域重叠、覆盖的情况,避免生成小的虚假文本区域,有效的减少了冗余文本区域的数目,简化了后期处理。在候选文本区域分析阶段,我们提出了使用频率分析来剔除非文本区域提高定位准确率的方法。实验结果表明,使用频率分析有效的提高了定位准确率。本文的方法根据MLP网络的输出确定每个像素点的属性,然后使用投影法从上一阶段得到的结果生成候选文本区域,最后对候选文本区域进行分析,剔除其中的非文本区域。实验结果表明我们的方法可以获得好的文本定位结果,得到了较为理想的评价指标。