探索基于EAST与CNN的钢材表面字符检测与识别方法

来源 :装备维修技术 | 被引量 : 0次 | 上传用户:yufengdong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:对于环境背景复杂的钢材生产线来说,现场光照条件和字符印刷质量会直接影响采集图像质量,传统字符识别和文本区域检测方法效果会因此下降。基于此,本文将基于EAST深度学习文本检测器与卷积神经网络(CNN)开展研究,并介绍一种实用的钢材表面字符检测与识别方法,希望研究内容能够给相关从业人员带来一定启发。
  关键词:钢材表面;卷积神经网络;字符识别
  前言:自动化操作正逐渐取代钢材生产企业生产环节中的一些人工操作,对应保存钢材编号与测试数据便属于其中代表。但结合实际调研可以发现,现阶段的计算机视觉方法在很多时候无法较好满足钢材表面字符检测与识别需要,为更好服务于自动化生产,正是本文围绕钢材表面字符检测与识别方法开展具体研究的原因所在。
  1.      图像预处理方法
  受光照不均匀、钢材表面坑洼、现场环境复杂等因素影响,图像过暗、过亮、噪声过多等情况很容易出现,并直接影响字符检测和识别的开展,因此需开展图像预处理,具体流程为:“灰度化→滤波去噪→图像增强→EAST文本区域检测”。可采用高斯滤波处理噪声,以此可在保留字符边缘的同时处理噪声,后续算法受到的影响能够降到最低,采用式(1)进行处理,式中的 为事先定好的常数,由此得到的结果离散化为原图和模板做卷积即可。
   (1)
  对于整体较亮或较暗的图像,可开展直方图均衡化处理,如采用伽马变换,背景区域信息弱化、文本区域信息突出即可顺利实现,具体为:
   (2)
  s设置为文本区域(拉伸具有更高灰度级的图像区域),同时压缩存在较低灰度的区域,图像文本区域可由此拥有更强的对比度。由于钢材的中央区域为字符区域,因此先获取整体文本的位置属于常用方法,形态图像处理和图像边缘分割属于较为传统的区域检测算法,目标区域获得可基于连接区域找到实现,EAST深度学习文本检测器可较好满足实际需要。作为一种深度学习模型,EAST以训练模式和新颖架构为核心,整个图像中四边形文本行可基于单个神经网络实现预测,不必要的中间步骤可由此省略,如字符分割和候选区域聚合。EAST模型由输出层、特征合并分支、特征提取器三个部分组成。预训练可采用池化层和卷积层交错的卷积神经网络,四级特征图像可由此获得,分别为原图1/4、1/8、1/16、1/32大小,在特征合并部分中,合并分支功能可逐渐合并,以此大小加倍处理图形,随后级联当前特征图。对于之后的3×3卷积层,其负责信息融合及文本合并阶段结果的最终产生,同时存在对应RBOX的输出层,由旋转角度和轴向边界框表示[1]。
  EAST也存在一定缺点,如将一个文本区域检测到多个文本区域,长文本的检测会受到影响。需聚合多个文本区域,以此得到整体的文本区域。为适应长文本区域检测,需对EAST输出层进行改进,以此实现更加准确的长文本预测。EAST的最终顶点坐标计算需应用所有像素预测顶点坐标加权平均值,这使得基于短边一侧的若干像素的長文本四边形另一侧两个顶点预测存在较高难度,因此采用的文本框边界输出层模式设计有头尾方向,头部像素负责其一侧两个顶点预测,另一侧由尾部像素负责,是否在文本框中、是否属于文本框边界像素、是头还是尾分别为改进后网络输出层的第一位、第二位和第三位,边界像素可实现两个顶点坐标预测为最后四位。在得到预测输出后,最后的文本框坐标也需要通过计算得到,需根据配置阈值通过预测矩阵得到激活像素集合,合并相邻集合需按照先左右后上下顺序,以此获得头和尾边界像素集合,最后的预测坐标值为每个边界像素点预测值的加权平均值。
  2.      钢材表面字符检测与识别方法
  2.1字符区域矫正与分割
  EAST检测会得到存在一定倾斜角度的文本区域,下一步的分割很容易受到角度过大倾斜的干扰,因此需开展针对性的字符区域矫正。需基于字符区域水平轴与包围矩形的长边夹角确定旋转角度,根据字符区域包围矩形中心点确定旋转中心,仿射变换矩阵可由此计算。图像倾斜矫正后需分割出背景中的字符,可采用最大类间方差法。多种场景下的分割不适合采用手动选择阈值方法,因此需应用自适应阈值选择方法,图片处理可采用最大类间方差法的二值化操作。二值化后,多个字符区域确定可通过找到正外界矩形实现,需搜索连接区域。在个别判断外部矩形宽度异常字符的过程中,需基于列的线性扫描进行操作,上下轮廓的极小值在异常区域寻找,切分正常的单个字符可通过对比正常区域宽度分割获得,向训练好的卷积神经网络顺序输入切分正常的单个字符,最终的识别结果即可获得[2]。
  2.2卷积神经网络
  卷积神经网络属于钢材表面字符检测与识别的关键环节,卷积神经网络由三部分组成,包括全连接层、池化层、卷积层。对于普通神经网络来说,神经元连接到图像每个像素会导致参数过多,但卷积神经网络能够实现参数数量的合理控制,这种控制可基于局部感知或权重共享实现。所谓局部感知,指的是基于强相关性的图像特点,由于存在相关性较强的距离相近像素点,以及相关性较差的距离较远像素点,因此仅需要局部感知每个神经元,且所需参数仅为卷积核心的像素数量。权重共享指的是一种提取特征方法用于每个卷积内核,通过对提取某一种特征卷积核的确认,同样的学习特征即可对整个图像学习,通过多个卷积核进行多种特征学习,特征提取充分即可得到保障,该区域的特征也可通过图像区域上的特定特征的最大值或平均值计算确定。特征的尺寸可通过汇总统计特征实现减少,过度拟合的难度也会提升,这种操作被称为池化,模型的参数和复杂性因此简化。实际采用多层卷积,训练基于完整连接层实现,学习特征的全局化程度会随层数增大而提高。本文研究需首先粗略切割钢材表面图片字符并保存,随后基于0到9一共十类数字划分字符图片,分作测试集和训练集两个集合,字符训练用卷积神经网络为LeNet5结构,后续检测基于保存的训练后权值进行,图1为卷积神经网络结构。
  结论:综上所述,基于EAST与CNN的钢材表面字符检测与识别方法具备较高实用性。在此基础上对比传统方法与本文研究方法可以发现,改进后的EAST和卷积神经网络均具备较高准确度,二者结合能够取得令人满意的结果,研究的价值由此得到证明。
  参考文献:
  [1]艾梦琴,陶青川.基于MobileNet模型的钢材表面字符检测识别算法[J].现代计算机,2020(03):73-78.
  [2]谢更新. EAST高速相机采集与图像处理系统研究[D].中国科学技术大学,2019.
其他文献
摘 要:在高职计算机实践课开展的过程中,计算机的操作使用贯穿整个教学活动,而新媒体的使用促使课程的开展收获更高的效率和质量。当前,高职计算机实践课对新媒体的使用已有相应的体现,贯穿了整个教学活动的开展、复习、考试,使混合式教学的进行得到了充分的保障。现阶段,新媒体下高职计算机实践课的混合式教学开展仍会面临各种各样的问题,教师应该从新媒体资源的利用进行更为深入的拓展。  关键词:新媒体;高职计算机实
摘要:本文以航空工业产业化发展为分析对象,首先介绍航空工业产业化发展概述,接着分析了航空业产业化发展存在的问题,最后论述了推动我国航空工业产业化发展的对策,以便提高航空工业发展的水平,促进航空工业产业化发展,提高我国航空工业的整体实力。  关键词:航空工业;产业化;发展  随着人类工业文明不断发展,人类社会已经步入了现代文明,许多高科技行业取得了举世瞩目的成就,例如航空工业发展迅速。航空工业发展潜
为向上海工商企业宣传好刚颁布的新法.市工商学会分别于4月6日、7日、12日对《公司法》、《反不正当竞争法》、《消费者权益保护法》的400名任课教员进行了培训.培训的教材,
中国近代教育思潮以龚自珍、魏源的实学教育思想为其噧矢,洋务教育思潮为其启始,维新教育思潮对其推波助澜,教会教育思想对其催化激励,清末新政将其推向高潮,辛亥革命则带来资产阶
摘要:以我校《电工电子技术实训》课程为例,借助MOOC平台,采用异步SPOC模式,开展线上实验教学,为初次开展线上教学的老师提供教学经验,同时也为后续的教学改革和提升提供了新的方向和思路。  关键词:线上教学;MOOC;实验教学  Discussion on online teaching mode based on MOOC platform  Jianrong Zhang  (Business
民主集中制是党的组织原则,在长期实践中,这一原则得到了发展、完善、并运用到政权建设和国家机构运行之中.
目的:观察替格瑞洛对冠心病患者经皮冠状动脉介入(PCI)术后凝血功能、血小板聚集率及预后的影响。方法:选取行PCI术的104例冠心病患者,按随机数字表法分为对照组和观察组,各5
写作主体在从素材到题材的嬗变中应具备写作灵感、胆量意识、洞察力、想象力和审美情感等写作素质,好的作品正是写作主体上述素质的体现.
今年一季度,新注册登记的外商投资企业19050户,比上年同期增长387.96%;投资总额520.9亿美元,增长694.05%;注册资本321.5亿美元,增长594.38%;外方认缴出资额19.7亿美元,增长581.6
目的:观察不同手术时机治疗高血压脑出血的效果。方法:选取108例高血压脑出血患者作为研究对象,按随机数字表法将其分为超早期组34例(出血后≤6 h)、早期组38例(出血后>6 h且