【摘 要】
:
作为计算机视觉领域基础及热点研究之一,文字检测与识别引起了大家的广泛关注与讨论。相较传统图像处理方法,基于深度学习的方法可以实现图像中文字信息的自动获取,从而进一步提高准确率,极大地节约人工及时间成本。但巨大的模型参数量以及内存消耗限制了其在小型设备如移动终端上的应用与发展,难以满足人们日益增长的需求。基于此,本文对轻量级文字检测与识别算法进行探讨并将其应用于公共数据集及不同领域的数据集之中,实现
论文部分内容阅读
作为计算机视觉领域基础及热点研究之一,文字检测与识别引起了大家的广泛关注与讨论。相较传统图像处理方法,基于深度学习的方法可以实现图像中文字信息的自动获取,从而进一步提高准确率,极大地节约人工及时间成本。但巨大的模型参数量以及内存消耗限制了其在小型设备如移动终端上的应用与发展,难以满足人们日益增长的需求。基于此,本文对轻量级文字检测与识别算法进行探讨并将其应用于公共数据集及不同领域的数据集之中,实现快速而准确的PCB芯片及体育彩票文字检测与识别。本文的主要贡献如下:(1)对现有文字检测与文字识别相关工作进行探讨。由于文字是一种特殊的目标,因此本文对相关目标检测算法、文字检测算法、轻量级网络以及文字识别算法的研究背景、发展现状等进行研究与讨论,同时,对卷积神经网络的设计、注意力机制、循环神经网络等相关技术的内容进行具体的阐述与研究;(2)针对现有文字检测模型参数量大、内存消耗大等问题,提出了一种基于轻量级神经网络的文字检测算法。受目标检测算法以及轻量级网络设计思想的启发,本文提出的算法以SSD框架为基础。为减小模型参数量,特征提取主干网络选用改进的PeleeNet,并进行通道数的统一。为充分检测不同大小、长宽比的文字,新增卷积层等操作实现多尺度特征图检测。为满足文字特点,利用先验知识,通过聚类对anchor值进行设计。同时,引入注意力机制,提高网络的整体性能。实验证明,本文提出算法在公共数据集上保证检测准确率的情况下具有更小的模型,同时在PCB芯片以及体育彩票数据集上具有更好的性能;(3)针对现有文字识别模型计算量大、内存限制大等问题,提出了一种基于轻量级神经网络的文字识别算法。该算法框架主要包括卷积神经网络进行特征提取,循环神经网络进行标签预测以及CTC实现转录,最终得到预测序列。为减小模型参数量,采用多路小卷积及堆叠Dense Layer充分提取特征。同时,为加速网络的收敛,提高模型的泛化能力,引入BN归一化。结果表明,该算法与现有文字识别算法相比,在公共数据集上保证识别准确率的情况下模型更小、识别速度更快,同时在PCB芯片及体育彩票数据集中具有更好的表现效果;(4)设计并实现了一个体育彩票票面文字识别系统。该系统针对体育彩票数据集,实现了快速而准确的票面文字的检测与识别。同时,本文建立了专门用于文字检测与识别的体育彩票数据库,该数据库中平均每张彩票图像大约标注目标30个,共标注大约31500个目标。该数据库可以对文字检测与识别性能进行有效评估。
其他文献
目的:评估钬激光内切开联合球囊扩张术和单纯球囊扩张术治疗良性输尿管狭窄的效果差异。方法:收集2016年1月—2020年1月北京佑安医院泌尿外科行输尿管镜逆行球囊扩张术和钬激光内切开联合球囊扩张术治疗单侧良性输尿管狭窄患者的临床资料,根据治疗方式分为联合治疗组(钬激光内切开联合球囊扩张术)和球囊扩张组,分析输尿管镜直视下2种手术方式治疗良性输尿管狭窄的效果差异。结果:共纳入82例患者,其中联合治疗组
猪病毒性传染病的发生流行,严重影响猪只健康以及养猪业的发展。除了疫苗免疫外,严格的生物安全措施也是防控动物疫病的重要手段,最基础的消毒环节在养殖过程中显得尤为重要。聚维酮碘作为常用的消毒剂之一,在养猪生产中被广泛应用。笔者介绍了聚维酮碘的结构特点、作用机理及其在养猪生产中的应用,以期为聚维酮碘溶液在养猪生产中的规范使用提供参考。
由于通信科学技术的飞速发展,诸如RFID标签读取器、GPS手机和车载导航仪之类的位置感知设备被大规模的普及。这些位置感知设备可以为人们提供便利的服务,但也收集了很多移动对象的轨迹数据。随着公众对隐私保护的日益重视,研究人员开始研究轨迹数据的隐私保护问题,确保轨迹数据分析时避免隐私泄漏。本文结合差分隐私技术研究了轨迹数据发布、轨迹聚类、轨迹频繁项中的轨迹数据隐私保护。(1)针对移动对象轨迹数据发布中
针对地下空间地质环境质量,前人运用三维地质信息化技术已开展了大量三维综合评价研究,但其评价结果对于规划和施工建议略显不足。其原因主要是评价过程主观性较强,综合评价结果难以充分表达地质环境的真实类别,难以关注更需受到重视的不良地质环境条件等。针对上述问题,利用自组织神经网络(SOM)和K-means算法对地下空间地质环境质量三维评价信息进行分类研究;以福建省厦门市马銮湾新城南岸片区为实例,基于三维空
随着大数据、云计算和人工智能等新兴技术的普及,越来越多的数据被收集起来进行分析和利用,推动了城市的治理和发展。在这其中,城市居民的出行流量数据和城市功能区分布数据蕴含了与城市发展和居民生活息息相关的海量信息,对于探索智慧城市的发展具有重要的理论意义和应用前景。近几年来,利用城市功能区分布数据来辅助进行居民出行流量预测已经取得了一定的成就,但是,由于这两类数据的异构性以及相关城市计算问题的复杂性,据
计算流体力学(Computational Fluid Dynamics,CFD)是研究湍流模型的重要手段,在基础流体力学研究和航空航天等领域发挥着重要作用。随着所研究问题的日益复杂化,对计算流体力学数值模拟的精度要求也越来越高。高精度的数值模拟结果依赖流场方程求解时的数值格式和计算网格的质量。网格自适应是一种有效提升网格质量的方法。常见的网格自适应方法可以分为局部加密,局部提高数值格式精度和移动网
大脑是人体最重要的器官,多个不同的大脑区域广泛交互,共同构成了一个复杂的网络来发挥功能。随着现代神经影像技术的发展,脑影像为研究大脑的病理生理机制提供了有力的技术支撑。特别是功能磁共振成像技术,由于其对大脑功能连接的渐进性变化具有较高的敏感性,已经被广泛应用于计算机辅助诊断。近年来,大型多中心医学数据库的建立加速了脑影像数据共享,为了克服小样本量带来的模型过度拟合的挑战,越来越多的研究开始关注如何
目的探究良性输尿管狭窄腔内手术治疗后置入海马型输尿管支架的临床效果。方法回顾性分析2020年1月至2021年12月于重庆医科大学附属第一医院行良性输尿管狭窄腔内手术治疗患者的临床资料。根据置入输尿管支架类型不同分为3组:A组为单根标准形状输尿管支架,B组为海马型输尿管支架,C组为多根标准形状输尿管支架,每组20例。同时收集3组间的基线资料(包括:年龄、性别、狭窄侧别、狭窄部位、狭窄长度、狭窄程度、
近年来,现实生活中的数据量急剧增长,信息过载成为当前时代的新问题。推荐系统可以快速地从海量数据中筛选出用户感兴趣的信息,在解决信息过载问题上发挥着重要的作用。然而用户和项目规模的增长产生的数据稀疏问题,导致推荐算法的精度降低,成为当前亟需解决的问题。异构信息网络描述了多种对象间的关系,可应用到许多数据挖掘任务中。知识图谱作为一种有向异构信息网络,包含了实体的描述信息和实体间在现实世界中的联系,可作
数字孪生作为实现装配物理世界和虚拟世界实时交互和融合的有效手段被广泛研究和关注。本文以H企业伺服机构装配单元为应用对象,研究基于数字孪生的伺服机构装配单元管控技术,将数字孪生技术应用到伺服机构装配生产管控中,实现物理装配单元与虚拟装配单元的融合,为装配单元管控提供一种新措施。本文主要从以下几个方面来展开研究工作:(1)伺服机构装配单元数字孪生建模研究。分析伺服机构装配管控建模需求,分别从装配人员、