深度模型及其在视觉文字分析中的应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:wishyourhappy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉文字分析是指从机器视觉角度智能感知和理解周围环境文字信息的一项技术,包括自动定位文字位置、识别文字内容和获取文字相关属性等。视觉文字分析技术无论在语言翻译、图像高层语义理解、人机交互,还是盲人阅读辅助、拍照识图、图像检索、无人自动驾驶等领域都具备巨大的应用前景。同时也是计算机视觉、模式识别等领域的研究难点之一。然而,传统的视觉文字相关方法或模型普遍存在以下特点:使用浅层特征、各模块相互独立、未能从大规模数据中自动学习有效特征表达。而且,现实情景中,各种复杂的干扰因素也使得已有的方法或模型未能进一步取得令人满意的性能,比如,手写汉字中存在大量的相似字、场景图像中不符合连通域定义的文字区域、字体识别中的特征表达等等。针对该领域存在的问题,本文主要围绕视觉文字分析中的三个任务(即手写汉字相似字发掘和识别、场景图像中的文字候选区域抽取、汉字字体识别的特征表达与学习)开展本文研究工作。本文吸收了已有方法在该领域的研究成果,运用了机器学习、计算机视觉、模式识别领域的前沿理论和技术,融合对问题的理解和认识,提出了级联分类框架下的相似字发掘方法,构建了针对场景文字检测的字符候选区域网络,并设计和改进了字体识别中的特征表达和学习算法。具体来说,本文的工作内容和创新主要为以下几方面:第一、在汉字相似字方面,本文提出了一种多置信度决策和熵计算的相似字发掘方法。尽管深度卷积神经网络大大提升了整体识别正确率,但简单地使用仍无法很好解决汉字相似字识别问题。本文在充分地统计和分析测试样本的置信度特性后,设计了一种多样本置信度共同决策的方案,用于发现相似字集合和相似字对。另外,针对类内相似字对数目不均和混淆程度不同的特点,本文提出了一种基于熵计算的相似性度量排序方案。该相似字发掘方法可以使用较少的相似对,从而涵盖尽可能多的误判样本。最后,基于发掘到的相似字对,本文提出了一种融合深度神经网络和字典对学习的级联分类方案。我们综合分析和比较不同模型在不同情况下的性能和效率的优缺点,率先将字典对学习方法引入到级联分类框架的第二级分类阶段,用于解决相似字分类问题。实验结果表明,使用本文提出的相似字发掘算法分别在casia-olhwdb1.0和casia-olhwdb1.0-1.2数据集上取得98.44%和98.05%的命中率,优于基于改进二次判决函数方法的95.42%和94.49%。同时,本文提出的级联分类框架在casia-olhwdb1.0和casia-olhwdb1.0-1.2数据集上分别将错误率降低了18.54%和16.99%,有效地解决了相似字识别的问题。第二、在场景图像文字检测方面,本文提出了一种稳健的文字抽取方法,即字符区域候选网络。已有字符候选方法在以下情况容易出现漏检或错检,包括多字符粘连、同一字符的多部件分离及非均匀光照条件。针对上述问题,我们调研了几种通用物体候选方法,研究了最大稳定极值区域和笔画宽度变换等两种常见的字符候选方法,并吸收滑动窗口方法抗干扰能力强的优点,推导出网络前向和后向映射的对应关系,利用全卷积网络共享卷积运算的特性构建了一种可定位文字的字符区域候选网络。该字符区域候选网络融入了多任务协同学习的算法,使得字符区域候选网络能够同时输出字符得分响应图和位置响应图。并且字符区域候选网络结合了一种多宽高比模板的策略,以更好应对字符宽高比不一的问题。本文将这些先验知识嵌入到统一的学习框架下,使得字符区域候选网络能预测到更加接近真实字符区域的位置。实验结果表明,字符候选区域网络使用1000个候选框分别在icdar2013、svt和chinese2k数据集上取得93.88%、93.60%和96.46%的召回率,优于mser,edgeboxes,selectivesearch和mcg等算法。在本研究工作中,我们采集和标注了一个中英语言场景文字检测和识别数据集scut-foru-db。该数据集包括3,931张场景图像,标注了55,209个字符或单词实例。现scut-foru-db数据集发布在网址https://www.dropbox.com/s/06wfn5ugt5v3djs/scut_foru_db_release.rar?dl=0,供相关科研工作者免费下载使用。第三、在字体属性理解方面,本文提出了一种基于局部特征的快速字体识别方法。我们发现笔画关键点处蕴藏着丰富的字体鉴别信息。基于这种观察,本文利用角点检测的方法去定位关键点进而在关键点处提取局部特征。本方法依靠较少量的关键点即可提取到足够丰富的鉴别信息,显著提高了字体识别速度。实验结果表明,本文提出的基于局部特征表达的快速汉字字体识别系统在不损失原有精度的情况下,将特征抽取环节加速将近20倍。除此之外,本文还介绍了一种全自动采集和标注扫描文档字符的方法,并收集了一个多语言扫描文档字体数据库。另外,本文运用计算机图形图像处理技术,设计了一种基于泊松编辑的文字图像渲染方案,合成的图像自然逼真,可用于场景单词分类、字体识别、字体检索和字符分割等多个任务中。最后,为了增强深度模型的特征学习能力,本文还提出了一种称为DropRegion的正则化方法。在常用的MSDF-DB数据集上,本文提出的DropRegion方法在不同的训练样本数量下,将单字符字体识别的分类正确率分别提高了3.03%,2.95%和1.46%;并且基于DropRegion的字体识别系统在MSDF-DB数据集上取得99.7%的识别正确率,证实了DropRegion是一种非常有效的模型正则化技术。
其他文献
目的 探讨盐酸氨溴索治疗慢性支气管炎急性发作的疗效及机制。方法 选取2013年7月-2015年7月在我院接受治疗的86例慢性支气管炎急性发作患者为研究对象,随机分为对照组和实验
当前,国内古建筑修缮工程施工管理普遍采纳新建工程的管理模式,并未构建起与我国古建筑修缮工程特点相符的管理模式。基于此,本文在分析我国古建筑修缮工程特点上,结合古建筑
目的评价亚甲蓝肛周封闭联合苦参汤加减方熏洗治疗肛周湿疹的临床效果。方法本文研究对象为肛周湿疹患者,研究例数一共70例,肛周湿疹患者均采取抽签分组方式分为两组,分为观
介绍了纤维素纤维织物阳离子化处理的机理,经正交实验,优化出纤维素纤维织物阳离子改性、姜黄萃取和染色的最优工艺条件.通过改性纤维素纤维织物和未改性纤维素纤维织物染色
1993年4月以来发生在深圳机场附近的十数起人、车失踪、司机被杀案,最近由深圳市公安局破获。两个涉及19宗抢车杀人案和20多名案犯的犯罪团伙已被抓获,并移送起诉。笼罩在深
目的:探讨补阳还五汤(Buyang Huanwu Fang,BYHWF)基于腺苷酸激活蛋白激酶(adenosine 5‘-monophosphate(AMP)-activated protein kinase,AMPK)/过氧化物酶体增殖物激活受体α(peroxi
村务公开是村民自治的一个重要环节,是农村基层民主政治建设的基础,村务公开的贯彻落实状况关系到广大农民群众的根本利益。但在我国广大农村的政治实践中,村务公开还存在重
采用Midas FEA进行实体建模分析,对扶壁式台的侧墙、前墙、肋板及桩顶力进行了结构受力分析.
目的探讨卡托普利对冠心病(CHD)介入治疗患者心室重构及炎性因子的影响。方法收集我院自2017年7月~2018年8月收治的72例接受经皮冠状动脉介入(PCI)治疗的CHD患者,按随机数字