【摘 要】
:
从图像/视频中读取文本对于图像识别/检索、地理位置、办公自动化和帮助盲人等丰富的现实应用具有重要价值,因为场景文本包含了解世界的非常有用的语义。近年来,在场景图像中阅读文本已经成为一个活跃的领域,场景文本阅读提供了一种自动快速获取自然场景中文本信息的方法,通常分为场景文本检测和场景文本识别两个子问题。得益于深度神经网络的强大表现力,场景文本检测与识别取得了显著的进展。本文主要基于深度学习的场景阅读
论文部分内容阅读
从图像/视频中读取文本对于图像识别/检索、地理位置、办公自动化和帮助盲人等丰富的现实应用具有重要价值,因为场景文本包含了解世界的非常有用的语义。近年来,在场景图像中阅读文本已经成为一个活跃的领域,场景文本阅读提供了一种自动快速获取自然场景中文本信息的方法,通常分为场景文本检测和场景文本识别两个子问题。得益于深度神经网络的强大表现力,场景文本检测与识别取得了显著的进展。本文主要基于深度学习的场景阅读方法,设计了一套端到端的场景文字阅读系统Mask Reader,主要用于检测和识别图像中的英文和数字。本文主要工作如下:(1)基于Mask R-CNN,我们通过实例分割解决了文本检测的问题,以便可以检测任意形状的文本。(2)本文设计并证明使用金字塔注意网络(PAN)作为Mask R-CNN的新骨干网络显著增强了Mask R-CNN的特征表达能力。(3)Mask Reader是第一个完全可端到端训练的文本框架,它具有简单,平滑的训练方案,因此其检测模型和识别模型完全受益于特征共享和联合优化。与以前的只处理水平或定向文本的定位方法不同,该方法可以对任意形状的文本进行定位,包括水平,定向和弯曲文本。(4)此外,本文还提出了一种空间注意模块(Spatial Attention Module,SAM),以提高系统的性能和通用性。由于在检测和识别两个方面都采用了所提出的二维表示,它可以方便地处理不规则形状的文本实例,例如曲线文本。(5)本文在多种数据集上对提出的方法进行了验证,以证明其鲁棒性。结果表明,在这些数据集上的文本检测和文本检测中,都达到了较先进的性能。
其他文献
近年来,随着科学技术的进步,收集到数据的维数也越来越大。因此如何有效地从海量数据中挖掘出有用的信息逐渐成为科学研究的热点问题。尤其是在生物统计以及基因研究的领域,数据的维度通常都是远高于样本数量(n>>p),又称之为超高维数据。目前统计学中的多数方法以及很多机器学习中的算法只能适用于低维数据,而高维以及超高维领域的研究却相对较少。在超高维的研究范畴中,通常会先将数据的维度降低到可以处理
经历了多年的发展,人工神经网络演化出多种独特的结构。卷积神经网络(CNN)由于在计算机视觉、语音识别和自然语言处理等领域的出色表现引起了研究人员的广泛关注。然而,随着CNN的功能越来越强大其网络模型也越来越庞大,训练耗时,对硬件要求苛刻等一系列问题制约着CNN的发展。因此,对CNN模型压缩的需求应声而出。针对上述问题,本文提出了一种基于逐步修剪策略的CNN模型压缩方法。与前人通过对权重修剪以减少C
人群踩踏事件是现代生活中非常危险的事故之一,给人类的生存安全带来了极大的威胁,有效的抑制踩踏事故的发生对于现代化城市建设来说是必不可少。目前,通过将人群密度估计(或者人群计数)技术与人群行为分析相结合可以有效的分析场景中的异常事件,对危险做出预警,这也是目前比较有效的预防踩踏事件的措施之一。但人群计数任务本身容易受到图像中的透视、拥挤、遮挡、密度等因素的干扰,造成图像中的人头在尺度、外貌上出现比较
探测粒子发射源的时空信息是高能核—核碰撞实验的重要研究内容,而π干涉学分析是人们获取高能碰撞系统时空结构的有效方法。多相输运模型(AMPT模型)是模拟相对论重离子对撞
人体行为识别是计算机视觉的热门研究方向之一。低成本的深度传感器的出现,如微软的Kinect,可以有效避免光照、环境等因素的影响,同时,它还可以获取图像中的深度信息和骨架信息,为人体行为识别研究提供了好的数据来源。因此,在人体行为识别的研究中,研究人员逐渐倾向使用三维骨架信息。词袋模型作为一种机器学习方法,被广泛用于基于骨架关节点的人体动作识别。目前,该方法的识别准确率仍需进一步提高。根据目前的研究
1965年前美国初等教育的发展可分为两个阶段,分别为独立后至南北战争时期初等教育的起步和南北战争后至1965年初等教育的发展。1965年至1995年,美国社会迅速发展,美国政府在之前初等教育发展的基础上,积极开展初等教育全面创新发展工作。1965年,联邦政府对初等教育进行首次大规模干预,通过制定法律推动初等教育的发展,颁布《初等和中等教育法》。其后,经过政府不断制定教育政策,使初等教育政策逐渐符合
提高人文社科本科教育质量的途径之一,是重视和加强人文社科专业本科生科研,了解其开展现状与效果,可为进一步改进人文社科专业本科生科研提供参考。对836位人文社科专业本科生的调查发现:本科生的科研参与意愿较强烈;科研参与率(包括正在参与)较高;参与率最高的科研类型是社会调研,最低的是教师的科研项目;很大一部分本科生最主要的参与动机源于内在的功利性追求,而非源于对科研的兴趣与热爱。不同背景的本科生科研存
高精度高表面完整性的纯铁曲面薄壁构件是精密物理实验中的重要零件,但纯铁材料属于黑色金属一类,传统的磨削、研磨和抛光等工艺存在加工效率低,表面污染,工艺稳定性较差等问
高功率微波功率合成技术是提高高功率微波器件脉冲能量和功率的一个重要的研究方向。相对论速调管具有高功率、高增益、高效率及相位稳定等优点,是功率合成的理想器件之一。相关应用的迫切需求推动了相对论速调管向着更高频率的方向发展。在高频段中,常规圆柱结构的相对论速调管难以实现高功率微波输出。为了突破功率限制,本文结合同轴谐振腔与多注漂移管结构特点,提出了Ka波段同轴多注相对论速调管放大器。本文采用理论分析与
近年来,含有未配对电子的有机自由基分子在分子电子学、自旋电子学和有机电子器件以及其他潜在的相关应用中具有较强的吸引力。其中,双自由基分子由于其开壳态和闭壳态之间特有的共振结构,如较低的能带间隙和较强的分子间自旋相互作用等,受到科研工作者广泛的关注,越来越多的研究者致力于探究双自由基化合物的合成方法和性质。双自由基化合物本身的不稳定性,限制了此类化合物的电子应用。一般来说,双自由基类化合物的基态电子