基于三值PCANet的自然场景文本检测与识别技术研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:a287924625
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动成像技术以及高性能计算技术的飞速发展,在各种环境中进行即时图像采集和处理成为了现实。近年来,移动平台上陆续出现的实时将文本翻译成其他语言的这类应用,进一步激发了人们对这类问题的兴趣,这使得关于图像和视频中的文本检测与识别的研究课题越来越受到关注。深度学习神经网络推开了自然场景文本检测与识别快速发展的大门,目前大多数文本检测与识别模型都是基于深度学习进行特征取以及后续的文本区域分割及字符识别的。其中基于深度学习神经网络进行特征取是整个自然场景文本检测与识别模型能否获得理想效果的关键环节。现有的特征取模型基本上基于卷积神经网络进行前馈传播,这样的取特征方式需要求解非常多的参数,以及需要依赖非常强大的硬件算力。本文以自然场景文本识别问题为研究背景,对复杂自然场景的文本识别效率进行研究。分析了两段式及端到端式的文本检测与识别模型,针对特征取阶段对模型进行改进和优化,出了基于多层融合的三值化PCANet特征取模型,用于自然场景的文本识别问题。本文主要研究内容如下:着眼于经典PCANet模型没有对图像像素邻域之间的关系进行分析取,本文对PCANet模型前侧出三值化改造,达到突显像素邻域之间的关系信息,获得更多图像边缘、轮廓等纹理特征信息的目的。接下来本文对PCANet结构中卷积过程进行改进设计,出了多层融合的PCANet模型。该模型将每一层的卷积结果进行加权融合,使得顶层特征信息仍然能够对特征输出做一定指导作用。对PCANet结构的输出阶段进行优化改进,出了全特征直方统计的特征输出方式,对特征图像像素进行统计获得特征频谱。将以上三点优化改进进行融合,出了多层融合TPCANet模型。考虑到现有训练样本的不足,导致深度神经网络学习出现瓶颈期,本文从影响深度学习拟合效果的几个方面进行分析,考虑对数据集进行增广。本文将多层融合TPCANet特征取模型融入到目标系统中,设计了基于现有CTPN文本检测模型及CRNN文本识别模型的两端式组合的自然场景文本识别服务框架。
其他文献
错觉轮廓(Illusory contour,IC)感知和对称性感知是人类对外部世界感知的两个重要过程,一直是认知心理学的研究热点。前人已经从低水平刺激特征对两个感知过程的影响方面展开了大量研究,但很少考虑中高级刺激在感知过程中的影响。本课题选择IC和对称性分别作为彼此感知过程中额外的中高级刺激特征,研究两个感知过程的认知心理机制,重点探讨两者的相互影响及感知顺序。本研究设计了一种较为新颖的包含IC
随着计算机技术的高速发展,诸如人脸识别、位姿估计等图像分析算法已广泛应用于生活。然而,在各算法研究过程中,往往都需要开发一套专用的配套系统,用于模型推理以及结果可视化等展示,使得其时间、成本均大大增加。本文以通用图像分析工具为研究课题,为快速开发上述配套系统提供有效支持。首先,设计实现了一个通用图像分析工具,以SSM为后端框架实现软件逻辑控制,以Vue.js为前端框架实现可视化操作界面,使用MyS
With the emergence of new communication technologies, advertising creativity is gradually breaking the framework limitations of traditional advertising design. At present, in the new media environment
非正交多址接入(NOMA)技术可以利用相同的传输资源(时间,频谱和空间等)同时为多个用户提供服务,因此它可以实现比传统正交多址(OMA)技术更高的频谱效率和更大的系统容量,目前已被广泛认为是未来无线电接入网络的关键解决方案。传统的NOMA系统通常将OFDM作为多载波方案,但这种方案存在高峰值平均功率比以及采用循环前缀降低了频谱效率这两大缺陷。为解决这些问题,小波调制被引入NOMA系统中,但基于小波
在信息时代,随着网络用户及网络需求的飞速增长,数据中心业务海量增长,网络一旦发生故障将会导致不可估量的业务损失,中断时间越长,损失越严重,因此,数据中心网络连接故障的快速恢复技术成为研究热点。现有基于SDN架构下链路故障恢复技术都需要控制信号来驱动SDN交换机恢复故障,需要至少两次南向接口通信,使得系统发现和恢复链路故障时间过长。而基于数据信号驱动系统恢复链路故障的方法,节省了南向接口通信时间。现
科技的进步离不开高精度工具、仪器的配合,部分器件在制造时可能存在制作不达标的问题,或有的设备在使用一段时间后出现磨损、变形,为能够更好更安全的使用这些设备需要对其进行测量。线结构光三维测量技术有着非接触、精度高等优点,在各领域有着广泛应用,因此对线结构光测量技术的研究也尤为重要。目前线结构光三维测量的扫描方式在测量不便移动的物体内壁时有一定局限性,本文提出自旋转式线结构光三维测量系统,可以通过对线
由于有机发光二极管的科研价值和经济效益逐步上升,电流-电压关系作为描述有机发光二极管电学性质的一个非常重要的物理因素,对其进行深入研究也显然是必要的。所以本文对有机发光二极管的电流-电压关系进行了研究。本文的主要内容为:介绍了与有机发光二极管电流-电压相关的理论基础,如漂移扩散方程、漂移电流、扩散电流、玻耳兹曼统计、费米统计、爱因斯坦关系等。在漂移扩散方程的基础上,对有机发光二极管电流-电压公式进
学位
自然界和工程领域的流动大多处于湍流状态,而湍流带来的高摩擦阻力一直是困扰人们的难题,研究湍流减阻对于减少能源消耗、环境保护等意义重大。利用柔性覆层进行湍流减阻的研究起源于人们对于海豚表皮的仿生研究。相比于主动控制,虽然减阻的效果差一点,但柔性覆层减阻不需要能量的额外输入,亦不用考虑安装传感器等目前技术条件下很难实现的问题,因而受到了人们的重视。目前柔性覆层延缓流动转捩的作用已接近应用阶段,但其对充
自然语言处理(Natural Language Process,NLP)是计算机科学和语言学的交叉,是人工智能领域的一个重要分支。近几年来随着计算机运算能力的提高,自然语言处理技术发挥了越来越重要的作用,来帮助解决人们实际生产生活领域中遇到的各方面问题。中文自然语言处理是NLP领域的重要组成部分,随着我国综合国力的不断增强、国际地位的不断提升,汉语也越来越作为一门流行而普及的语言受到世界的关注。中