面向图像的场景文字识别技术研究

来源 :辽宁工业大学 | 被引量 : 11次 | 上传用户:xukaiboy123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网发展和图像录入设备的普及,图像在人们的生活中越来越受到关注。图像除了更加生动展示了事物,而且比单纯文字蕴含着更多的信息,从图像中获取文字信息优点就是,可以获取与图像相关联的文字信息,通过对文字信息进一步处理,如互联网检索,能够从这些文字信息当中获取更多的图像信息。但是如何从图像中获取文字信息,一直是令人困扰的话题。为了能够从各种复杂的图像中提取文字信息,各种文字识别理论相继提出,并从在实践中取得一定成果,近年来,场景文字识别技术得到计算机视觉社区研究人员青睐,并一直处于研究发展当中。本文基于已有的场景文字识别算法,对场景文字识别技术的理论与实践进行了系统深入的研究。在文字识别方法中,本文分析了传统文字识别技术和非传统文字识别理论方法,并介绍了2种流行文字识别算法,即基于MSER算法和基于SWT算法,提出了一种基于SWT改进算法;在文字提取方法中,本文分析了传统文字提取技术和非传统文字提取理论方法,并介绍了2种流行文字提取算法,即基于Otsu算法和基于分水岭算法,提出了一种基于Otsu改进算法;在深度学习文字识别方法中,本文分析了深度学习一般框架和流程,并介绍了时下流行CTPN场景文字识别算法,设计了一个基于CTPN+CRNN文字识别系统。本文通过实验仿真,在文字识别方法中,改进了基于SWT算法流程,使其加快识别速度,实验结果表明,改进的算法符合实际要求,速度提升了38%左右;在文字提取方法中,改进了基于Otsu算法流程,使其具有更好的识别效果,实验结果表明,改进的Otsu算法不仅逼原算法效率高,而且要比传统的全局Otsu算法分割效果要好;在深度学习文字识别方法中,本文设计了一个基于CTPN+CRNN的场景文字识别系统,其系统的查准率和查全率表现良好,对实际场景文字识别实践方法具有一定的借鉴意义。
其他文献
介绍了1GHz-2GHz宽带大动态射频前端的设计和实现。大动态射频前端采用二次变频方案,实现了低噪声、大动态输出。通过合理的频率和电平配置,减小了混频非线性导致的组合干扰,降
在具有盈余管理动机的上市公司中,亏损公司盈余管理动机最为强烈。文章采用抽样技术对2003—2005年度部分亏损公司资产减值的八项计提进行了分项检验,发现被主要用于盈余管理
通过对家庭体育、学校体育和社会体育的功能、目的和任务及相互关系进行分析,阐明家庭体育、学校体育和社会体育是构成终身体育的基本内容和重要组成部分.家庭体育、学校体育
OTG在手机上已经不是什么新鲜的功能,OTG连接U盘既不方便也不必要,所以使用频率并不很高,长时间都处于不温不火的状态。
计算机通信网络技术的飞速发展,为社会带来了巨大的推动与冲击,与此同时,也引发了网络安全问题。本文在分析网络安全的相关问题及现状的基础上,提出对网络安全的一些防范措施。
虽然Z170最先问世,但是毫无疑问B150才是市场的主流,跑量的大户。在Z170发布一个月之后,Intel解锁了H170和B150芯片组和对应的不可调节倍频的非K系列第六代酷睿处理器。各个厂商也顺势推出了基于这两款芯片组的主板产品。《电脑迷》评测室收到了来自技嘉的G1.Sniper B7主板,该主板基于Intel B150芯片组,用于取代之前基于B85芯片组的G1.Sniper B6。该主板的表现
战略管理会计是市场经济的产物,是在企业生存环境日益不确定的背景下形成和发展起来的。战略管理会计的思想渗透到整个管理会计信息系统,能使企业获得持久的战略竞争力。
<正>近年的互联网络攻击速度远远超过了网络防御技术发展,各种类型的僵尸网络攻击给网络管理人员带来了更大的挑战.我国当前对关键基础设施的信息安全关注不够,造成重点行业