自然场景下文字识别与信息抽取的研究与应用

来源 :华侨大学 | 被引量 : 0次 | 上传用户:Waaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是人们进行信息传递的重要传播媒介,采用计算机对图像中的文字进行识别一直以来都是模式识别领域研究的重点对象。早期的文字识别主要针对的是较为规整的扫描文档图像,随着电子及信息技术的发展,人们更喜欢随时随地的进行拍摄,也使人们获取图像的方式丰富起来。这些在真实环境中采集的包含大量非文本复杂的背景及噪声的图像则称为自然场景图像,如何利用计算机从场景图像中识别并提取出感兴趣的文本进行进一步的分析、传递及存储等,则是近年来相关科研人员关注和研究的重点和难点。近年来,得益于深度学习在目标检测等领域的发展,光学字符识别(Optical character recognition,OCR)技术在方法和性能上也取得了很大的进展。但仅采用OCR技术是无法理解文本的语义信息,识别出的结果通常是包含噪声文本的一串可编辑文本,因此很难从这些文本中抽取出人们感兴趣的文本,这在实际场景应用中非常受限。针对这一问题,本文研究内容主要分为以下三个方面:其一,针对复杂的自然场景文本图像的情况,设计了一套基于图像渲染处理的文本行图像生成算法,可以高效生成大量的带标签的文本行图像,以供后续文本识别模型进行训练;针对序列标注(sequence labeling)问题,提出一种基于规则的数据生成算法,直接生成带标签的文本序列,以供后续序列标注模型训练。其二,针对复杂场景文本识别问题,提出采用ResNet(深度残差神经网络)作为场景文本识别模型的主干网络框架,并与VGGNet(深度卷积神经网络)作为模型骨干网络框架进行对比;另外为了更好的适应中文识别场景,提出采用基于薄板样条(Thin-plate spline,TPS)插值的空间变换算法的文本识别模型,并在测试集中达到了98.13%的准确率。其三,提出一种基于循环神经网络的BiLSTM-CRFs模型。提出采用双向长短时记忆(Bidirectional long short-term memory,Bi LSTM)网络建模OCR的识别结果序列,得到包含上下文信息的特征序列,随后引入条件随机场(Condition random field,CRF)建立特征和标签之间的关系,进行标签预测,通过标签即可得到特定文本。实验结果表明,该方法在云南电力提供的场景图像数据集YNIDREAL(自然场景身份数据)上可以达到88.52%的准确率。相较于条件随机场模型,准确率提高16.39%,证明了方法的可行性和鲁棒性。
其他文献
生物资源的保护是维持生态系统平衡的重要前提,而动物资源在生物资源中占据着重要地位。保护动物资源对自然生态系统有着极其关键的作用。人类对动物资源的重视在不断地加强
在电子封装产业中,电子元器件中的焊点是确保电子产品正常使用与运转的关键条件。随着封装无铅化的大力推广,无铅钎料的应用越加广泛。封装焊点中最重要的两部分为钎料和基板
要实现对光场的调节,传统的方法是通过引入光程差来累积相位差从而对偏振态、振幅、相位这三个光场的重要分量进行调节。但传统器件的体积太大不符合集成化的要求。超材料是
太赫兹波是指频率在0.1-10THz(波长为3000-30 μm)范围内的电磁波,在信息通信、生物医学、天文学、安全检查等各个领域都有巨大的应用前景。太赫兹测量技术是太赫兹波应用的
随着航空航天技术的发展以及战场环境和攻防对抗形势日益复杂,为了提高战场生存能力,导弹拦截的目标呈现出高速、大机动的发展趋势。同时,随着飞行器向智能化的方向发展,目标
在高功率微波相控阵天线系统中,通常利用控制辐射阵元激励相位的方法实现辐射系统大范围波束扫描。随着技术的发展,高功率微波系统对移相单元的功率容量、结构布局、传输特性
极化码因为确定的编译码结构和容量可达的优势而被人们广泛关注,并在5G移动通信时代发展的关键时刻,被确定为5G增强移动宽带场景下控制信道的编码方案。然而极化码在实际应用
分形是自然界和人类社会中普遍存在的一类事物的本质特征,分形理论作为非线性学科的一门重要分支,特别适合分析研究各种复杂信号。本文旨在研究分形理论在故障诊断中的应用,
紫外少周期强飞秒激光脉冲具有强电场、宽光谱和超短的时间分辨特性,在强场超快物理学研究中,如提高高次谐波的转换效率、泵浦激发宽带隙物质和产生温稠密物质等方面起到极其
目的:制备荷载三氧化二砷的介孔纳米二氧化锆球并对其体外释放特性进行评价。方法:利用实心二氧化硅(Silicon dioxide,SiO2)作为模板,首先在表面包覆一层二氧化锆(Zirconium dio