自然场景下文本定位技术的研究

来源 :华北水利水电大学 | 被引量 : 1次 | 上传用户:onepiece_bing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本定位作为场景图像文本信息处理的重要模块,具有十分重要的实际应用价值和理论研究意义。经过最近十几年的发展,自然场景图像中文本定位技术取得了一定的进展;然而,由于场景图像中文本信息所特有的复杂性以及外界环境因素的干扰,关于自然场景图像中文本定位的研究仍具很大的挑战性。本文结合笔画宽度变换(SWT)算法和最大稳定极值区域(MSER)算法的优点,提出一种新的场景图像文本定位方法。具体如下:首先,利用MSER算法检测图像,提取图像中的文本信息,获得最稳定极值区域。初提取的最大稳定极值区域往往呈现不规则的状态,这为后续的文本定位工作增加了一些阻力。因此,本文采用基于仿射不变量的方法将不规则的候选MSERs区域拟合成椭圆。然而,拟合之后,一些背景区域也被当作字符处理。为了能够剔除这些非文字区域,本文制定了相应的过滤策略,主要包括:基于字符高度与宽度的限制条件、基于字符宽度与高度比值的限制条件和基于字符边缘密度的限制条件。实验证明:经过上述过滤机制筛选后,可以有效剔除非文本区域,得到文本候选区域。然后,利用SWT算法提取最大稳定文本候选区的笔画特征。初提取的笔画宽度图出现许多非文本元素,对后续操作形成干扰。为了能够剔除这些干扰因子,并保留文本区域,本文制定了一系列启发性规则,主要包括:(1)限制字符宽高比的取值范围,以去除一些过长或过短的连通区域;(2)限制连通区域直径与笔画宽度中值比值的范围;(3)给出字符高度的限制条件,以防止一些过大或过小的文本区域被删除;(4)图像阈值设定为连通区域笔画宽度平均值的一半,以剔除如树叶等常见的干扰元素。此外,为了使字符能够连接成文本行,本文定义了两个候选连通分量应满足的包括笔画宽度中值比、高度比值、字符间距等在内的限制条件。最后,从ICDAR2003数据集中抽取了具有代表性的图片进行实验验证。结果显示,本文提出的MSER+SWT定位方法取得了较好的定位效果(准确率高达76%,召回率为61%),且文本定位速度得到了显著提高。
其他文献
随着科技的发展,机器人技术的逐渐成熟,在生产生活中机器人得到广泛的应用。其中并联机器人具有高刚度、高精度、高速度的优势,弥补了串联机器人在工作中呈现出承载能力弱、
随着计算机技术的迅猛发展,多媒体技术的发展也随之空前繁荣,多媒体设备在人们的生活中也充当着越来越重要的角色。视觉作为人们获取信息的最为重要的来源,因此图像、影像等
液滴微流控作为微流控的一个分支,以其尺寸小、所需样品少、密封的微环境无交叉污染等优势在近年来受到了越来越多的关注,成了一个快速发展的研究方向。液滴微流控芯片技术的
表面等离子体共振(Surface Plasmon Resonance,SPR)传感器以其系统灵敏度高、检测实时性强、免标记检测等特点,在生物研究、药品研发、食品安全和环境监测等领域得到了广泛应用
随着图像处理软件的普及,人们修改一幅图像越来越容易,这导致出现在我们周围的图像很多是经过修改的。目前有多种图像篡改方法,复制粘贴方法是其中运用最广泛的一种。篡改人
自动目标识别(Automatic Target Recognition,ATR)是现代信息化战争中不可缺少的探测手段,随着雷达成像技术和信息处理技术的发展,基于雷达高分辨率距离像(High Range Resolu
图像分割、特征聚类和特征类匹配是图像处理与视觉计算领域的重要研究内容。本文探讨图像分割、特征聚类及特征类匹配方法及其在人脸图像和糖尿病视网膜病变图像上的应用。本
近几年来,数字图像在我们的生活和工作中扮演着越来越重要的角色。同时随着数字图像处理软件的发展,人们可以轻易地篡改数字图像而不留下明显的篡改痕迹。如果篡改图像被应用
大数据时代,数据的爆炸导致人类需要处理的信息越来越多。在计算机视觉领域,如何准确而又高效地从海量的图像中提取有用的信息越来越来越重要。在这样背景下,图像显著性检测
随着智能移动终端设备的迅速发展,智能手机,平板电脑等已经成为了人们生活中必不可少的一部分。移动互联网和移动应用在给我们的生活带来便利的同时也给服务器推送技术带来了