【摘 要】
:
文本检测与识别的相关工作在我们的日常生活中随处可见,如身份证识别、停车场的车牌识别等,极大地方便了人们的生活。不同应用场景下文本内容形态多样,尺度差异较大,语义背景也往往不同,需针对性地设计检测与识别算法以取得更好的实操效果。本文基于民国报纸标题检测与识别这一具体中文场景任务展开,该工作有利于将纸质报纸转化成能检索能查询的数字馆藏,进而挖掘其史料价值。我们对基于深度学习的文本检测与识别工作进行研究
论文部分内容阅读
文本检测与识别的相关工作在我们的日常生活中随处可见,如身份证识别、停车场的车牌识别等,极大地方便了人们的生活。不同应用场景下文本内容形态多样,尺度差异较大,语义背景也往往不同,需针对性地设计检测与识别算法以取得更好的实操效果。本文基于民国报纸标题检测与识别这一具体中文场景任务展开,该工作有利于将纸质报纸转化成能检索能查询的数字馆藏,进而挖掘其史料价值。我们对基于深度学习的文本检测与识别工作进行研究,针对民国报纸的特性对现有算法做出改进,并提出以下民国报纸标题检测与识别方案。民国报纸原图受拍摄环境、摄影师技术水平等影响,其多含有大量黑白边,且可能有一定程度的倾斜。这不仅增加了不必要的存储消耗,也影响数字阅读体验。本文提出围绕直线检测算法和投影法展开的版面分析方法,根据民国报纸场景特性编写一系列启发式规则,设计了包含倾斜校正和黑白边去除在内的预处理操作模块。在标题检测阶段,本文采用并改进了单阶段无锚框检测器EAST。EAST模型推理较快,其无锚框的特性省去了在新任务中重新调整锚框尺度和比例的繁琐工作,利于模型的部署、迭代与推广。民国报纸使用的印刷体繁体字结构复杂,字体变形丰富,因此本文改进了EAST的特征提取器以学习更具区分度的图像表征。另外,损失函数的设计对模型性能影响较大,我们对其也做出相应改进,使EAST在民国报纸场景下取得了更优的检测效果。在标题识别模块本文使用了CRNN模型以合理利用视觉信息和标题序列中存在的语义信息。因民国报纸识别数据集训练样本少,本文生成了大量贴近真实场景的假数据来缓解这一情况。考虑到民国报纸标题有竖版与横版两类,两者的语义方向不同,而CRNN因其架构特性只能处理某一固定的语义方向,我们提出使用双模型来完成标题识别任务。本文通过实验验证了上述方法及其改进的有效性,这些研究内容对于其他场景下的中文文本检测识别任务也具有较大的参考价值。
其他文献
由于脑电信号反映了大脑神经的基本活动,所以能够客观反映出人的内在情感。然而在脑电信号采集过程中不可避免的出现伪迹,这将导致脑电信号质量不佳;以及现有的特征选择方法无法提取与情感相关的通道,从而将与情感无关的通道也参与脑电信号分类之中,这些结果都会导致脑电信号情感效果较差。为解决上述问题,本文以SEED数据集、DEAP数据集为研究对象,将稀疏化理论引入脑电信号情感分类之中,对特征提取选择和分类算法进
人类对于世界的探索已经不仅仅局限于陆地和海洋,而是将探索的方向转向了更为广袤的天空和宇宙,因此对各个国家在航空航天领域的技术实力提出了更高的挑战,国家在空气动力学领域的研究与进步也就显得尤为重要。空气动力学中在获取气动数据时仍依赖较为传统的方法,但此类方法的局限性较大,通常具有较高的时间或经济成本。而当前人工智能技术的蓬勃发展为空气动力学领域气动数据的获取方式的发展提供了新的契机。空气动力学领域传
人体动作识别作为视频分析中一个非常重要的组成部分,其已经在多个重要领域发挥至关重要的作用,包括视频监控、人机交互、自动驾驶等等。传统的人体动作识别主要基于RGB图像或视频,但由于尺度、光照变化以及背景噪声等因素的影响,效果不尽如人意。近年来,得益于深度传感器的发展以及人体骨骼关键点检测算法的成熟,越来越多的研究聚焦在基于骨骼关键点的动作识别算法上,并且开始使用图卷积对人体骨骼进行建模并加以分析。本
人工智能技术如今在诸多领域已经取得了巨大的突破,得到了非常广泛的应用,例如目标检测、图像识别和自然语言处理等。目前由于“数据孤岛”问题和愈发严格的隐私安全管控,人工智能技术面临着缺乏高质量训练数据的困境。由于联邦学习支持用户在不分享原始数据的条件下联合训练模型,能够汇聚更多分散的数据共同建模,因此逐渐成为人工智能研究领域的热点。然而,联邦学习环境中存在的数据异质性和系统异质性因素会导致模型训练效率
在多目标优化问题(multi-objective optimization problems,MOP)中,一个子目标的改善可能会引起另一个或者另几个子目标的性能降低。因此不存在同时优化所有目标的全局最优方法,而是存在一组能够权衡冲突目标之间的解决方案。演化算法(evolutionary algorithms,EA)由于其基于种群的特征已被广泛认为对多目标优化有效,算法以尽可能权衡各个优化目标来保持
得益于互联网和移动设备的广泛应用,以信息流形式为基础的电子商务平台和短视频平台正在占用更多的流量和用户时长。为了解决“信息过载”问题,个性化推荐系统成为了互联网厂商重点发展的核心技术。本文以多媒体推荐系统为研究课题,主要关注大规推荐排序算法中普遍存在的挑战,重点研究了利用深度学习和多模态学习解决用户冷启动,物品冷启动,小样本量等问题。主要内容分为三部分。第一,物品冷启动。物品冷启动指的是新的物品加
自动求解数学题是机器智能推理领域的一个重要子问题,用于解决这该问题的自动求解器通常为一种特定的机器智能系统。广义的来说,在推理任务中,机器智能体需要依据给予的信息(如事实描述或观测信号)和已有的先验(如模型结构和常识知识),在特定的限制下来解决特定的问题或者给出总结。更具体地,对于自动求解数学题系统,求解器需要依据给定的问题描述和数学先验知识,生成符合规范可计算的解题等式。该任务基于检测机器智能体
随着深度学习的兴起,越来越多领域开始使用深度神经网络和循环神经网络构建性能卓越的数据驱动的模型结构。比如在自动驾驶和智能安防等场景下,深度模型的出现使得这些技术出现了较大的进展,因为基于大规模数据的深度模型在自然情况下可以对图片进行高效、高准确性的计算和判断。但是有部分研究员们却发现深度模型存在一个比较严重的隐患,即通过对图片添加一些很小的扰动便可以导致模型做出错误的判断。在高性能要求的应用场景中