基于MLP和区域分析的自然场景文本定位方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:ahaqwjtyl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数字科技的迅速发展,从彩色图像中提取文本信息的研究越来越受到人们的关注。图像中的文本信息可以作为图像资料的自动注释、索引、压缩等方面的重要参考。在过去的40年里,文档图像处理和理解已经有了广泛、深入的研究。这个领域的工作覆盖了许多不同的方面,包括预处理、物理的和逻辑的排列分析、OCR/ICR、图像分析、签名验证和作者识别等,而且在很多领域被应用,如办公自动化、数字图书馆等。通常情况下,研究者根据文本对象的存在形式将图像中的文本分为人工文本和场景文本。在传统的识别方法中,文档图像是通过扫描纸张得到的,这些文本主要是人工文本。对于人工文本的研究已经有大量的文献。近来,人们越来越倾向于使用数码相机、数码摄像机等数字设备得到文档图像或者获得场景图像,这就对文本提取领域提出了新的问题。本文针对自然场景中的文本区域定位这个问题来进行研究,包含预处理、特征提取、分类器分类、候选文本区域生成和候选文本区域分析五个步骤。在特征提取和分类器分类阶段,我们使用方形区域内“米”形范围内像素点的灰度值作为输入特征并使用MLP网络将像素点分为文本像素点和非文本像素点,该方法避开了特征构造和选择的复杂阶段。在候选文本区域生成阶段,我们针对MLP网络对像素点分类后得到的二值图像的特点提出了使用投影法产生候选文本区域的方法。投影法与传统的使用连通域生成候选文本区域的方法相比,可以避免出现区域重叠、覆盖的情况,避免生成小的虚假文本区域,有效的减少了冗余文本区域的数目,简化了后期处理。在候选文本区域分析阶段,我们提出了使用频率分析来剔除非文本区域提高定位准确率的方法。实验结果表明,使用频率分析有效的提高了定位准确率。本文的方法根据MLP网络的输出确定每个像素点的属性,然后使用投影法从上一阶段得到的结果生成候选文本区域,最后对候选文本区域进行分析,剔除其中的非文本区域。实验结果表明我们的方法可以获得好的文本定位结果,得到了较为理想的评价指标。
其他文献
XML(eXtensible Markup Language)是世界万维网联盟W3C(the World Wide Web Consortium)制定的一种数据标准。它以其结构化、互操作性强、易于交换和可扩展性的特点在很多行
随着信息技术的日益发展,在许多行业领域出现了各种各样的网络终端设备,如瘦客户机,信息查询终端,工业控制终端,手持信息终端等。而且对于网络终端技术的研究也不断向前推进,
公钥密码是密码学的重要内容,是实现信息保密的核心体制,其安全性及发展的研究也一直是密码研究中非常活跃的课题。一方面,随着集成电路、智能卡技术的发展,以及嵌入式系统的
无线监控,视频传感器网络以及移动相机等新应用的出现,使得低复杂度视频编码方法的研究变得非常迫切。适应这些需求,分布式视频编码得到重视。分布式视频编码是一种全新新的
群体行为是一种在大自然的生物中广泛存在的自然现象,这一奇妙的现象吸引了各个领域众多科学家的浓厚兴趣,他们试图发现隐藏在其背后的规律,这些看似简单的个体产生出这么复
在处理资源有限的情况下,传统的DBMS不能实时有效地处理和查询连续的和数量巨大的数据流,而流数据管理系统(DSMS)作为解决此类问题的新方法得到广泛的研究。DBMS通过引入新算
随着互联网的发展,网络的规模日益扩大。网络多媒体通信系统也迎来了新的发展机遇并已初具规模,网络会议作为它的一个极具前景的应用而备受业界关注。目前用于网络会议的多媒体
在现代软件系统的设计开发过程中,数据库访问是非常重要的环节。数据库连接池技术的引入是为了解决软件运行过程中,频繁地创建和释放数据库连接,从而降低系统性能的问题。数
船舶系统是一个耦合度高,各子设备之间相互联系,各主要元件分布广泛的系统集成的复杂系统。一旦出现设备故障,仅仅依靠船员根据他们的经验和专业素养来进行排故和维修,很难在
以国家输变电行业中骨干企业西开公司的实际项目为背景,以企业信息化建设中遇到的实际问题为出发点,提出了建设企业决策支持系统的必要性,并介绍了企业决策支持系统的发展状况,分