基于多尺度Gabor滤波器和BP神经网络的文本检测算法研究

来源 :东北师范大学 | 被引量 : 7次 | 上传用户:haojian19831212
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,基于内容的图像检索和视频检索所采用的特征基本上是低级视觉的特征,如颜色、纹理和形状,而且往往要人工加入关键词和描述信息,以便于组织信息,这就增加了工作量,同时也引入了人为的主观因素,不利于检索。要达到语义级的基于内容的检索是非常困难的,而彩色图像和视频中的文本字符,是图像高层语义内容的一个重要来源,它包含许多非常重要的有用的信息,如街道名称、商店名称、路标、交通标示、字幕等,这些信息对于图像和视频资料的自动注释、索引、压缩等方面有重要的参考作用。因此,通过对它们的检测、识别和分析,再结合已有的检索技术,就有可能在一定程度上达到概念级的基于内容的图像检索。本文以现有的文本检测算法为基础,通过对文本特征研究现状的分析,实验表明了一些图像文本检测算法的不足之处:实验场景过于单一、鲁棒性差;对光照条件不好的图像处理能力较差等。基于这些问题,提出了一个基于多尺度Gabor滤波器和BP神经网络相结合的文本检测算法。该算法首先对HSI颜色空间中的I分量图像进行预处理,利用Sobel边缘检测算子和基于灰度的区域增长算法对一些可能是文本的区域进行粗定位。其次,对这些候选文本区域进行Gabor滤波。运用多尺度的方法,在Gabor滤波后的子图中提取72个纹理特征。然后,用统计的方法对得到的特征进行筛选。最后,把筛选后的特征作为相应区域的特征向量输入BP神经网络,进行分类,得到真正的文本区域。本文提出的文本检测算法,进一步拓展了Gabor滤波器的研究领域,也显著提高了检测算法的准确性。同时对输入神经网络的纹理特征进行筛选,可以改良BP神经网络固有的训练速度慢的缺点。本文算法不仅准确的检测到了图像中的文本,而且达到了较高的检测率。在多种场景中的文本检测实验中验证了本文方法较现有经典方法而言具有更高的灵活性和鲁棒性,尤其在对图像和视频帧中的文本检测都具有良好的准确性,检测率达到96.3 %。
其他文献
该文对当前办公自动化系统的现状进行了分析,并结合现代企业在信息化过程中所遇到的具体问题和需求,经过详细分析并设计了该办公自动化系统.论文讲解了该办公自动化系统的整
Internet是上一世纪七十年代以文本数据传输为主的应用背景下诞生的网络,因此对正确性要求高,对实时性要求低。但随着多媒体网络应用数据流在Internet中的增加,使得Internet的“
随着地理信息系统(Geographic Information System,GIS)应用的深入和需求的扩大,在不同分辨率、不同空间尺度上对地理对象进行分析、计算和表达,已成为GIS研究领域内的热点和前
B方法是一种用于描述、设计计算机软件的严格方法,其作用一直延伸到代码生成。它用伪程序语言来描述需求模型,进行软件设计和实现。B方法建立在Zermelo-Frankel集合理论的基
当前Internet广泛使用的网络协议是IPv4协议。随着Internet的飞速发展,网络的规模急剧膨胀,使得地址资源日益稀缺,路由表迅速膨胀,这些问题使得目前的IPv4协议已越来越不能适应In
随着信息化的深入,目前一个企业内部多种Web应用系统并存的情况十分普遍,而它们大多分散开发且具有独立的用户认证授权机制。企业员工拥有多套用户名和口令,当访问这些应用时需
互联网上的信息每天都以指数量级的速度爆炸性增长,面对如此浩瀚的资源,搜索引擎为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索引擎出发到达自己想去
椭圆曲线密码系统(ECC)建立在椭圆曲线群上离散对数(ECDLP)的难解性这一数学难题。与其他公钥密码系统相比,椭圆曲线密码系统除了安全性高外,还具有计算负载小,密钥尺寸短,占
分布式集群系统是应对当下大数据处理要求的主流方案之一,实现分布式集群系统的负载均衡性,有利于提高集群系统的稳定性和高效性。对于分布式集群数据库系统HBase在热点场景
本文主要阐述了《英汉蒙电子词典》的实现方法和相关技术的研究。《英汉蒙电子词典》可在Windows环境下实现英语、汉语和蒙古语词汇相互查询功能,其屏幕取词功能可实现对鼠标