基于随机宽度直方图的自然场景文字检测

来源 :天津大学 | 被引量 : 0次 | 上传用户:nankaizhizhuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着智能手机的大量投入市场,基于计算机视觉技术的相关产品得到了用户的广泛应用,其中就包括人脸检测、人手检测等智能检测算法的研究应用。作为目标检测领域中的重要组成部分,文字检测在近年来也越来越得到人们的重视。其中,在自然场景下的文字检测算法等相关研究工作逐渐成为了学术界研究的热点之一。不同于对扫描文档等内容的文字,由于环境和拍摄镜头的影响,自然场景下的文字常存在于复杂的背景环境、不同的光照条件下,而且呈现出不同的字体和颜色。因此,研究在自然场景下的文字检测算法,提高检测准确率,增强算法的鲁棒性,从而降低误检率,具有重要的意义。考虑到自然场景的复杂性,必须使用更加鲁棒的特征来表示文字并与非文字相区分。由于文字的宽度具有很强的稳定性和一致性,所以本文重点分析了基于笔画宽度变换(SWT)的文字检测算法。但是由于SWT存在参数个数过多、计算拐角边缘方向失效等不足,为了克服这些缺点,本文提出了一种新的文字检测特征——随机宽度直方图,并且引入局部二值模式纹理特征(LBP特征)以及支持向量机学习算法(SVM),从而形成了一种更为有效的文字检测算法。本文在检测文字宽度特征算法的基础上,使用了两个公开的标准数据库(包括ICDAR数据库和街景数据库)作为测试集,对本文所提出的文字检测新算法与两种经典的基于宽度的文字检测算法进行了实验对比。从实验结果可以看出,本文提出的基于随机宽度直方图的自然场景文字检测新算法,在提高了文字检测的准确率的同时,降低了误检率,并且减少了所需调节参数的个数。
其他文献
随着第三代移动电话的出世,3G手机已经能够提供除了语音和SMS之外的更多种信息服务,比如网页浏览,电子邮件的查看,电话会议等。特别是近阶段YouTube,Facebook,Twitter等社交网络服
近年来,压缩域视频运动目标检测应用受到广泛的关注,由于其具有检测速度快、实用性强而被应用于多个领域,如多媒体、人机交互等。针对视频源的处理方式来分,目标检测包括像素域和
企业、网络服务提供商以及移动网络运营商都在寻找一种有效的传输方法,这种传输方法可以在多个独立的地点间以高速宽带的方式传输数据、语音以及视频信息。使用铜线和光纤技术
VANET是一种利用自组织网络提供车辆之间通信的网络,以装备了无线通信设备的车辆和路边单元为节点,目的是改善道路状况和提高道路交通的安全性。随着VANET技术的不断发展,针对VA
正交频分复用(Orthogonal frequency-division multiplexing,OFDM)技术由于具有高频谱利用率、抗多径干扰、可实现无线数据高速传输等优点。多输入多输出(Multiple-input mult
图像分割在数字医学图像处理中占据着举足轻重的地位,分割质量的好坏会直接影响图像后续处理步骤的准确顺利进行,医学中要处理的图像有很多种,如MRI(核磁共振成像),CT(计算机断层
在现代物流业蓬勃发展的背景下,城市物流已成为一个城市综合竞争力的组成部分之一;目前公路物流作为城市物流的主要运输方式,通过对城市公路物流指数的研究,有助于判断一个城市内
多宿是一种用来增加IP网络稳定性和可靠性的技术。它可以提高网络的吞吐量,并实现负载均衡。在可变的,不可靠的网络中多宿技术往往能发挥重要作用。随着新技术的产生,对多宿一些
近几年来,由于全球互通微波存取(WiMAX)技术的数据速率高、部署成本低以及覆盖范围广,使其被广泛地应用于提供无线最后一英里的连接服务。同时, WiMAX被认为是能在大城市区域实现
第四代移动通信技术中的正交频分复用(OFDM,Orthogonal Frequency DivisionMultiplexing)技术,以其良好的频谱利用率和抗信道衰落能力,备受瞩目。可是,OFDM技术也有一些缺点,如有较