复杂背景下文本信息的识别与提取技术研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:snowin11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景图像上的文字信息中包含了非常丰富而准确的高层语义信息,是我们对于场景内容元素理解的关键。随着生活的智能化,图像和视频应用的快速增长,在图像检测中,自然场景的文本检测识别技术也得到了国内外学者的广泛关注。但是,因为自然场景的复杂性和不确定因素的影响,为文本检测识别技术的发展带来了很大的困难。因此,对于自然场景的文本检测识别还存在着许多技术上的困难。本文针对自然场景下的文本检测与识别进行研究,主要借鉴了图像处理、目标检测和机器学习等领域的最新进展,并从以下几个方面具体展开工作。(1)由于自然场景中图像受光照不均匀、字符形式多样、遮挡、图像噪声和边缘检测算子的选择以及其他因素的影响,传统的SWT算法和MSER算法的性能受到很大限制,导致了文本检测结果中出现部分字符缺失,甚至是漏检、错检。针对上述算法的不足,提出了一种结合SWT和多通道光照均衡化MSER的文本检测算法。首先,对输入的图像做去噪和校正操作;随后,利用光照均衡化分别处理R、G、B三通道下的文本图像,将处理之后的结果再用MSER算法初步筛选文本区域;最后基于SWT算法,利用SVM分类器过滤掉伪字符区域得到最终的文本区域。实验结果表明,该算法能够有效的解决文本检测过程中的漏检问题。(2)传统的Faster R-CNN算法适用于如行人等比较常规的目标检测,对于文本检测时会忽略文字的特殊性,只关注字符的深度特征,忽略了文本字符中字符之间存在的上下文关系,造成文本检测效果不佳。针对该问题,本文在深入研究Faster RCNN算法的基础上,引入双向LSTM网络来提取字符的上下文信息。为使模型能够预测文本的几何坐标和文本倾斜角度,添加了文本角度信息用于在候选区域判断和位置回归。同时使用蒙特卡洛非极大值抑制方法,筛去多余的文本检测结果。最后通过实验验证了该方法对自然场景中任意方向文本检测的有效性。(3)不同于一般算法,将检测与识别分为两个部分独立处理,本文设计了一种基于CNN+BLSTM+CTC的端到端文本识别系统,将文本检测与文本识别结合在一起,同时输出检测结果和识别结果。本算法使用CNN和BLSTM作为编码器,连接CTC作为解码器来进行文本识别。实验表明,与传统的检测识别分开的方法相比,本文所提出识别方法在识别率和识别时间上均更具优势。
其他文献
现代制造正从单品种大批量的重复性制造向多品种小批量的适应性制造发展,这种发展趋势为制造业项目管理提供了应用基础、应用市场和发展潜力。项目管理的核心是优化项目调度、均衡资源配置,从而在项目执行过程中能够更精准地控制进度,以达到缩短工期、节约成本、提高质量的目的。资源受限项目调度是项目管理领域内一类经典的调度问题,需要在满足活动逻辑约束和资源约束的情况下生成调度方案,以达到最小化总工期的目的。以该问题
弹性超材料是一类由特定微结构单元组成的新型人工复合介质,由于这些单元(单胞)的单极和多极局域本征模式的作用,此类复合介质能够表现出组分材料所不具备的一系列独特的弹性波调控能力。而当将弹性超材料引入到实际应用中时,对应的结构物一般是有限尺寸的波导结构,主要关心的是这些特殊结构物的振动特性问题,因而有必要针对典型的弹性超材料波导,建立合理的振动分析方法,深入考察其独特的模态特征及其相关振动特性。本文以
随着智慧城市的建设和完善,如何为用户在室内活动中提供可靠的位置服务,成为当前研究的焦点。行人航位推算(PDR)是当今复杂室内环境下定位与导航必不可少的一种技术,而航向精度是阻碍PDR定位精度提高的难点之一;另外,PDR通常以明确约束的方式携带智能手机时,才能进行有效的导航或定位,如手持手机于身前,这为现实生活中PDR方法的推广与应用带来了较大的局限性。基于此,本文研究了航向修正的方法,深入探究了不
相对无定型或多晶态薄膜材料,有机单晶具有晶界少、缺陷态密度低、分子堆积高度有序的优点,因而具有更优异的载流子传输效率,被广泛应用于高性能电子元件中。近年来,已经发展了多种技术手段来实现有机半导体单晶材料的可控制备与有序组装,但是,由于缺乏对有机半导体单晶生长的控制,导致其呈现出生长位置的随机性、结晶取向的无序性以及难以直接在柔性聚合物介电层上结晶,使其在高性能、柔性可穿戴电子器件中的应用十分困难。
随着传统化石燃料的大量使用,环境污染日益加重,以风能、太阳能等可再生能源补充甚至替代传统化石能源已刻不容缓。为实现风能、太阳能等可再生能源稳定供电,开发高效的大规模储能技术具有非常重大的意义。液流电池相比于其他储能技术具有输出功率和容量相互独立,系统设计灵活,使用寿命长,运行稳定,能量效率及可靠性高等突出优势,应用前景非常广阔。锌镍单液流电池是一种单液流电池,由防化研究院于2007年提出,其正极为
氧化石墨烯是由二维单层平面sp2杂化碳原子组成并具有卓越的光、电、磁等性能的新型碳材料。与石墨烯不同的是由于其表面具有丰富的含氧活性基团,不仅使它的带隙可调,而且具有良好的可修饰性。通过共价和非共价的方式在氧化石墨烯表面引入不同种类的功能分子和基团,使其具有各种特定功能而在更广泛的领域中得到应用,目前已成为科学界研究的热点课题之一。本文利用分子间π-π和静电吸附作用将四种阳离子型金属酞菁分别修饰到
材料技术的发展为非线性光学带来大量的新型材料。石墨烯已被证明有着显著的三阶非线性光学(NLO)性质,如热致非线性散射(NLS)和光限幅(OL),以及二阶和三阶的非线性饱和吸收(SA),还有超快载流子吸收与宽带共振非线性光学响应。虽然单纯的石墨烯难以在大多数有机溶剂中稳定存在,但是石墨烯的最大优点是可以通过化学手段使其通过共价键合的方式与有机分子结合从而进行修饰,通过结合不同的基团进而形成多功能非线
电致变色材料因在电压作用下可发生交替的颜色变化而被人所认知。这种有趣的性能导致其可以应用在很多技术领域,如智能窗、自动防眩目后视镜、大尺寸电致变色屏幕和变色材料等。在本文中,我们合成了一系列的马来酰亚胺树脂,通过FTIR对聚合物的结构进行了表征,并探讨了其电致变色性能。本文第一部分描述了双马来酰亚胺与不同的二胺基三芳胺通过迈克尔加成反应合成了一系列新型聚酰亚胺(PIs)中间体预聚物,它们易溶于许多
面对数据量的爆炸式增长,云存储服务凭借其存储空间大、运营成本低等优势已经成为未来存储的发展趋势。随着云存储的发展,为了满足广大用户的需求,各种与云存储结合的应用不断从安全性、性能和数据访问等多方面完善云存储方案。为了提高云存储处理大数据工作负载的能力,分布式键值存储已经成为许多公有云服务的主干。现代分布式键值存储为数据密集型计算和基于云的应用程序提供了卓越的性能、可扩展性和良好的可用性。许多大数据
近年来,信息技术的快速发展逐渐取代了传统的管理模式,各行各业信息化管理正在进行着前所未有的转型升级。在此背景下,图书馆管理信息化的进程也在逐步完善,数字化图书馆以其方便快捷的文献检索方式、个性化推荐等特色服务深受广大读者的厚爱。随着图书馆藏书数目及电子书目的日益增多,传统的图书馆管理模式普遍存在图书信息推荐体验感差的问题,读者面对各式各样的书目短时间内很难找到感兴趣的图书。如何运用信息化的技术和方