【摘 要】
:
随着移动互联网的飞速发展及智能手机等移动电子设备的普及,自然场景图像的获取和传输变得越来越便捷。自然场景图像中的文本包含了丰富的信息,人们期待计算机能代替人类自动
论文部分内容阅读
随着移动互联网的飞速发展及智能手机等移动电子设备的普及,自然场景图像的获取和传输变得越来越便捷。自然场景图像中的文本包含了丰富的信息,人们期待计算机能代替人类自动地检测并提取图像的文本信息。与传统的光学字符识别不同,自然场景中的文本信息提取面临着字体多变、布局不一、背景复杂等问题。近年来,面向自然场景的文本识别研究虽然取得了一定的成果,但是与实际应用的要求还存在较大的差距。因此,面向自然场景的端对端英文文字识别方法的研究不仅具有重要的理论研究意义,而且具有广阔的应用前景。本文旨在从自然场景图像中提取精确文本位置和正确的文本信息,并构建一个端对端的场景文本识别系统。针对现有研究方法中字符图像特征表示能力不足及过分依赖复杂模型等问题,本文主要开展以下三方面的研究:(1)自然场景中字符的无监督特征提取及其分层表示;(2)自然场景中的文本定位:(3)自然场景中端对端的文字识别系统的框架。本文的主要贡献如下:1.提出了基于卷积神经网络的无监督特征分层表示算法。我们先利用改进的K-means聚类方法从训练数据中获得基向量,再结合卷积神经网络提取字符图像的特征。2.提出了由字符到字符串,再到单词的文本分层定位框架。采用最大稳定极值区域(MSER)算法提取字符候选区域。根据字符的空间布局等特征对多层特征过滤后的字符候选区域进行融合。设计了字符串的结构特征,进一步提高文本检测的准确率。3.设计了端对端的场景文字识别算法框架,实现了实验演示系统。我们把文本检测与字符识别模块进行整合,并设计了基于词典的识别矫正方法。实验结果验证了所提文本识别方法的有效性。
其他文献
移动通信的高速发展给我们带来了各种便捷的服务,然而用户数量的激增给日益紧缺的频谱资源带来了巨大的挑战。如何保证用户智能终端随时接入的同时拥有安全质量的通信服务,是现
铝空气电池是一种金属铝和氧气在电解液环境下反应进行放电的金属燃料电池,具备能量密度高、价格低、环保、功率密度高等优势。目前铝空气电池尚处于实验室阶段,大多数铝空气电
随着计算机技术的不断发展和软硬件条件的日益更新,虚拟现实技术作为未来发展的一项代表性技术,已被广泛运用到了社会各个领域,其中包括电脑游戏、影视动画、工业仿真、军事
应用人工智能、大数据分析等现代信息技术量化描述和分析森林结构是现代森林经营管理领域的研究重点及发展趋势,尤其是对包含空间信息的天然次生林结构恢复重建与优化调整的研
随着信息技术的不断发展,云计算已经成为当前广泛应用的计算模式和学术界研究的热点。在云计算快速发展的同时,其规模不断扩大,所要处理的用户任务量也越大,因而怎样高效利用
双目立体计算机视觉一直以来都是计算机视觉技术研究中的一个热点研究课题。它是通过双目摄像机模拟人眼采集物体的成像,建立起实物,实物成像和摄像机之间的几何关系,还原出
随着物联网、遥感、地理信息、大数据、云计算等新技术和手段在森林火灾动态监测方面的广泛应用,多源、异构、高维及海量的监测数据呈爆炸式增长。传统的监测方法在过去很长一
科学计算可视化是指运用计算机图形学等知识,将数据以直观的形式表现出来,于20世纪80年代后期被提出并得到了迅速发展。目前,它广泛应用于各种领域,例如医学、气象预报、分子
近年来,随着数字媒体技术和信息技术的不断发展更新,不仅为数字媒体包括数字图像的产生、制作和传播提供了便利,更使得数字媒体的编辑、复制和篡改更为容易,这就导致数字图像
随着时代的发展,科学技术和劳动者素质成为社会发展的一个重要因素,发展高等教育成为推动科技进步,提高劳动者素质的一个必然选择。现代信息技术的普遍应用推动了教学模式、教学