基于深度学习法的视频文本区域定位与区别

来源 :哈尔滨理工大学学报 | 被引量 : 0次 | 上传用户:wn206403
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:通过对视频图像进行快速、准确的文本定位与识别,有利于提高视频信息处理的效率与准确率,采用Gabor滤波器实现在横、竖、撇、捺四个方向上的视频图像的纹理特征的提取,再通过RBM逐层增量深度學习算法构建深度置信网络,实现对提取的纹理特征图像中文本区域的定位.论文同时研究了利用形态学处理方法和OCR字符库实现对视频图像文本识别的可行性,并分析了识别效果,测试结果表明,本文提出的深度学习算法与形态学字符识别方法相结合,不但能够实现对视频图像文本区域的准确定位,还有利于提高字符识别的效率和准确率。
  关键词:深度学习算法;视频图像;文本区域定位;形态学去噪;字符识别
  DoI:10.15938/j.jhust.2016.06.012
  中图分类号:TP391.43
  文献标志码:A
  文章编号:1007-2683(2016)06-0061-06
  0.引言
  视频中的文字检测与识别是视频图像检测领域的一项重要研究内容.在复杂背景下,视频文本的准确定位与识别有利于进行视频图像检测,只有准确的视频文本区域的定位,才能提高OcR字符识别系统的文本识别准确率,进而提高基于内容的视频图像的正确检测的效率,对视频定位与检索有十分重要的应用价值,一般的文本定位方法主要包括:边缘特征定位法、笔画宽度定位法、纹理特征定位法、机器学习法等,本文采用2D-Gabor滤波器与深度学习算法相结合的方法,实现对复杂背景视频中文本区域的定位,并研究了基于形态学的视频图像去噪方法,再通过OCR系统实现字符的识别,以提高OCR系统字符识别的准确率。
  1.深度学习视频文本区域定位与识别流程
  本文将深度学习算法理论应用于视频文本区域定位与识别过程,设计了一种基于纹理特征的逐层增量深度学习算法.该算法的处理流程如图1所示.首先,将视频图像通过Gabor滤波器滤波,获得视频图像文本中文字的纹理特征;接着,将纹理特征作为训练样本,利用受限玻尔兹曼机(restricted bolt-zmann machine,RBM)逐层对纹理图像进行增量学习,在学习过程中,用标记样本作为监督数据进行网络微调,构成深度置信网络(deep belief network,DBN),并标记文本区域和背景区域的二值图像;之后,利用形态学方法对二值图像去噪处理,再映射到定位图像上,得到仅包含文本区域而去除背景区域的文本图像,最后,再将图像进行二值化、灰度等后续处理,送入到OCR字符识别系统进行字符识别.
  2.逐层增量深度学习视频文本定位算法
  2.1视频图像纹理特征的提取
  字符的纹理具有周期性,并且在一定的频率范围内能量相对集中,所以可以利用二维Gabor滤波器对视频图像在不同尺度和方向上进行滤波,Gabor滤波器理论最早由Daugman提出,能够很好地描述对应于空间频率(尺度)、空间位置及方向选择性的局部结构信息。
  鉴于中文字符主要由横、撇、竖、捺4种基本笔画组成,所以Gabor滤波器要求能够在这4个方向上反映中文字符的笔画特征,并且要求能够保证对这4个方向纹理区域的频率分量均有很好的响应。Wang等研究了Gabor滤波器中心频率与汉字的笔画的关系,发现Gabor滤波器的中心频率与周期入成倒数关系,且周期入是笔画宽度η的一半,当笔画的方向与Gabor滤波器的方向处于正交时,Ga-bor滤波器输出最优,因此,可以通过笔画的宽度来确定Gabor滤波器的中心频率,本文中Gabor滤波器所选择的参数为低频中心频率U1,/sub>=0.2,高频中心频率U,sub>h0.4,方向数和尺度数分别为T=4,M=4。
  图2(b)所示为图2(a)原视频图像在横、撇、竖、捺4个方向进行Gabor滤波后的结果.由图2(b)可知,Gabor滤器能够将文字纹理和背景纹理分离,并使文字在横、撇、竖、捺4个方向的纹理信息得到保持,同时背景区域的纹理被有效的抑制。
  2.2深度学习算法基本原理
  深度学习是机器学习研究领域中的一个新问题,其目的在于建立、模拟人脑进行分析学习的神经网络,深度学习算法是由深信度网络(depth be-lief network,DBN)上的一系列受限玻尔兹曼机(re-stricted bohzmann machine,RBM)的概率模型组成.深度学习算法一般描述过程如下:假设有一个系统s,它有n层,S1,S2....Sn设输入为I,输出为o,学习的一般过程表示为:I=S1=S2,…Sn=O,如果输出O等于输入I即输入I经过这个系统变化之后没有任何的信息损失或者损失很小,可以看作基本上保持不变,这意味着输入,经过每一层Si,都几乎没有信息的损失,即任何一层SI,都是原有信息(即输入i)的另外一种表示,深度学习算法的核心思路有:①无监督学习用于每一层网络的预训练;②每次用无监督学习只训练其中一层,将其训练结果作为其高一层的输入;③用自顶而下的监督算法去调整所有层。
  2.3深度学习网络(DBN)的构建
  本文采用的深度置信网络的深度学习算法,是通过一系列受限波尔兹曼机(RBM)的概率模型组成.Hinton和sejnowski等设计了一种能够用在机器学习中的随机循环网络一受限波尔兹曼机,它是一种如图3所示的两层无向图模型,包含可视层v和隐藏层h,同时限制同一层节点之间的连接,而不同的单元层之间有连接。
  2.4网络训练与权值调整
  DBN网络需要进行训练以获得最佳权值,通常DBN网络训练包括自底向上非监督学习和自顶向下的监督学习两个部分,其过程为先对纹理特征图像采用RBM进行逐层增量学习,应用最大似然估计法不断地调整网络中权值,使RBM达到能量平衡,再用监督数据,对整个DBN网络进行微调,   在非监督学习过程中,DBN网络中每一个状态值都对应一层的结点,计算的输入输出数据都是对应结点状态值为“1”的概率值,而Hn层的输入向量是每个文字区域的纹理样本,通过交替的吉布斯采樣后,作为DBN网络的输入.设深度学习网络结构包含n个隐藏层,每层的节点数分别是L1,L1,…,LN,纹理特征图像送入到DBN网络中的输入层Ho层,不断的调整Hn和H1,之间权值Wo,根据式(8)、(9)将调整得到的权值Wn与初始数据根据式(7)计算出一组新的概率送入H1层,作为H1层的输入数据.重复上述计算过程得到WS1,WS1,…,Wn-1最终得到DBN网络的初始权值Wi={Wo,w1,W2,…,Wn-1},DBN网络包含n+2层,即H0,H1,H2,…,Hn层和样本标签数据层,其中HSn作为输入层,其节点数为64,标签样本层为输出层,中间n层的节点数分别是L1,L2,LSn,…采用无标注的训练样本构建DBN网络,以HSo和H1之间的训练为例,HSn和Hn,层构成了一个RBM,HN与可见层移的节点数相同,H1,与隐藏层h的节点数相同,利用交替的吉布斯抽样来调整权值WSn,直到RBM收敛。
  在非监督学习过程中,保存RBM调整得到的权值,并作为自顶向下的监督学习的初始权值,与监督学习过程一样,根据样本的标注,采用梯度下降法再次微调权值,这里,RBM网络和DBN网络采用同样的网络结构,都具有相同的输入层和隐藏层,包括每层的节点数目也都相同,只是DBN网络最后还有一个输出层.DBN网络训练过程如图4所示,
  3.形态学视频图像去噪处理
  通过深度置信网络法对文本区域准确定位后,再根据字符的特征,采用形态学处理方法实现对空洞区域和孤立点进行填充、去噪、腐蚀以及膨胀等操作,最后再将获得的标记二值图像映射到原图像,实现清晰背景的文本图像。
  针对图像中存在的孤立点噪声问题,通过邻域背景区域形态学比较,修改标记二值图像中孤立点背景区域值,实现孤立点去噪处理,如在标记二值图像过程中,由于字符之间存在间隔和中文标点符号,经过DBN网络处理后,该区域易被判定为背景区域,此时需要根据形态学法进行背景填充,即将背景区域值“0”修改为文字区域值“1”,为消除视频图像中次要文本区域的定位,以达到对视频中主要文字信息的提取与识别,本文采用了基于形态学的图像腐蚀与膨胀方法。
  选用原点位于中心的5×5对称结构元素作腐蚀和膨胀运算,由于腐蚀运算,在去除噪声点的同时,会对图像中文本区域的形状有影响,故在进行腐蚀运算,去除部分噪声点后,再进行膨胀运算以消除腐蚀运算之后对文本区域的影响。
  经过DBN网络、形态学去噪处理以及图像映射后的效果如图5所示,由图5所示可见视频图像在经过训练的DBN网络处理后,可以有效定位出字符、文本区域信息,如图5(b)所示;而经过形态学处理后图像中的噪点和不连续点被有效去除,获得清晰的文本区域图像,如图5(c)所示。
  4.OCR字符识别及结果分析
  视频图像文本区域定位都是从最底层特征映射出相应的顶层特征,依次层层映射,直到得到最顶层的结果。
  通过对DBN网络及经形态学处理后文本区域,进行二值化处理,去除与边界相连的区域,将文本域背景黑白反转,再送到OCR软件进行识别。图6所示为图5中视频帧图像中的一段文本区域的二值反转图像,图7为此二值反转图像经OCR识别后的结果。
  将本文提出的逐层增量深度学习算法与神经网络、经典Kim方法以及SVM方法对文本区域的定位作对比.采用式(12)中的查全率(RR)、查准率(PR)以及系数F来综合评价这几种方法的使用效果。
  其中:c为图像中正确检测到的文本区域个数;m为图像中检测到的文本区域总数;n为图像中实际存在的文本区域总数;F系数用来对各个算法性能进行综合排名,是将查全率和查准率这两个性能的指标线性合并而成。
  4.1不同网络结构的比较
  为研究不同DBN网络结构对算法性能的影响,故测试了不同DBN网络层数的性能,实验结果如表1所示,测试数据表明,随着网络层数的增加,DBN网络的正确率逐步提高,网络的逼近能力逐步增强,但是,随着网络层数的增加,网络的复杂度也会不断的增加,网络的泛化力会逐步降低,所以并不是网络层数越多越好,实验中,认为4-DBN网络能够满足文本区域的需求,因此后续实验选择4-DBN网络为基准。
  4.2与其他方法的比较
  通过选用100幅不同背景的视频帧图像、字体大小、字体颜色、单行或者多行等情况下,采用如上4种不同方法对文本区域进行定位和对比,测试结果如表2所示。
  从表2的试验结果对比可以看出,DBN网络文字区域定位的效果要明显优于其它3种方法,其查全率和查准率均高于Kim和SVM法,并且其F系数也是最高的.针对表1中DBN网络正确定位的文本区域总数378个,总字符数为5059个,进行文本识别实验,经二值化和形态学去噪处理后再进行OCR识别,表2测试结果表明,DBN网络在文本定位方面与其他3种算法有着明显的优势.通过正确定位出文本区域,使对视频中的文本字符的正确识别率也明显提高,保障了后续文本识别的正确率.
  5.结论
  本文将深度学习算法应用在了文字区域的定位与识别中,根据文字区域的纹理特征,利用Gabor滤波器提取这些特征,通过逐层增量深度学习调整DBN网络进行文本区域定位,并对定位后的结果采用形态学等后续处理与OCR识别,实验结果表明,逐层增量深度学习算法具有较高的定位准确性,有利于视频文本的正确识别。
其他文献
摘 要:依据润滑理论,求得推力轴承瓦面油膜温度场,简化处理后视其为镜板表面温度。采用有限元数值分析方法,对可倾瓦推力轴承推力盘由温度引起的变形进行模拟仿真,并重点介绍了推力盘温度场的加载方法和加载过程。分析结果表明:温差引起推力盘产生热变形,镜板处变形最大,该变形沿径向呈向下凸起。  关键词:润滑理论;温度场;推力盘;数值模拟;热变形  DOI:10.15938/j.jhust.2018.02.0
期刊
摘要:考虑了对易感者周期性接种疫苗和对染病者采取隔离控制疾病措施,建立了一类SIQRS传染病模型,利用脉冲方程理论,给出了无病周期解稳定性及疾病一致持久性的充分條件。  关键词:脉冲接种;无病周期解;稳定性;一致持久性  DOI:1015938/jjhust201702014  中图分类号: O175.3  文献标志码: A  文章编号: 1007-2683(2017)02-0072-06  Ab
期刊
摘要:考虑了隔离和接种对疾病的控制影响,建立了一类具有饱和发生率的时滞SEIQR传染病模型,给出了模型无病平衡点和地方病平衡点存在条件及模型的持久性,借助持久性构造了 Liapunov函数,证明了无病平衡点和地方病平衡点的全局稳定性,利用数值模拟验证了模型动力学性质。  关键词:时滞;隔离;持久性,稳定性  DOI:10.15938/j.jhust.2017.02.015  中图分类号:  文献标
期刊
摘要:弦长和安装角对风能利用率有很大的影响。以Wilson理论为基础,运用MTALAB 优化工具箱的Fmincon函数,计算出叶片的弦长和安装角,并利用曲线拟合工具箱进行曲线拟合,运用UG建模,之后通过ACP对叶片进行复合材料铺层设计以及模态分析。分析表明:叶片内腔中加入PVC硬质塑料后,使叶片的固有频率能达到基本要求,从而为改善叶片的综合性能提供参考。  关键词:  叶片;优化;复合材料;ACP
期刊
摘要:为实现UPS高频机在高开关频率工作的同时,减低功率开关器件的损耗,辅助谐振变换极软开关(auxiliary resonant commutated pole,简称ARCP)技术可作为解决措施。传统的ARCP电路能够解决主管的软开关,但同时还引入了辅管的关断损耗。因而工作在较高开关频率下系统的整机效率会下降,不能将其应用于实际产品中。本文在传统的基于半桥ARCP软开关电路的基础上,详细介绍了谐
期刊
摘要:针对传统多目标优化过程中参数难以选择的情况,采用NSGAⅡ解决供应商选择问题,为企业选择供应商提供一套有效的决策方案。首先,建立以质量最大化、售后服务最大化、价格最小化和时间最小化为实现目标,以总需求、供应能力、采购策略、采购量为约束条件的供应商选择模型。其次,供应商选择模型将采用NSGAⅡ对其进行求解。最后,将NSGAⅡ和加权求和法进行实验比较。实验结果表明,与传统的加权求合法方法相比,N
期刊
摘要:基于图像检测钢球表面缺陷时有效面积选择不当严重影响检测精度和效率,首先对钢球表面检测最佳范围进行研究确定理想弧长;其次基于球带理论建立了有效面积与球带重叠关系模型,以此控制展开次数来降低重叠面积;最后利用有效弧长覆盖效率公式来直观地控制弧长冗余量所带来的重叠面积,达到提高检测效率的目的,并为钢球直径系列化检测系统开发奠定了重要理论基础。  关键词:理想弧长;球带理论;重叠面积;展开次数;覆盖
期刊
摘要:非局域空间孤子具有低功率、类似粒子的弹性碰撞特性,因此在光信息处理和光连接领域具有潜在应用。为了获得光束传输的有效控制方法,数值计算了亮孤子及亮孤子对由非局域介质进入竞争非局域介质后的传输行为。发现,非局域亮孤子进入竞争非局域介质后以呼吸子的形式传输。非局域偶极孤子进入竞争非局域介质后分裂成两个独立传输的亮孤子。反位相非局域亮孤子组成的震荡束缚态进入竞争非局域介质后的传输行为与界面(非局域介
期刊
摘要:针对传统FP-Growth算法在大规模数据环境下挖掘效率低下的问题,提出了一种改进的FP-Growth算法。该算法主要是通过基于频繁闭项集策略对完备模式树进行剪枝进而减小搜索空间规模,达到提高算法挖掘效率的目的。并将改进后的FP-Growth算法的分治策略与分布式计算框架Hadoop的MapReduce编程模式有机结合,进一步提高了大数据环境下的挖掘效率。实验证明,基于Hadoop的改进FP
期刊
摘要:针对准确、实时定位电能质量暂态扰动源的问题,通过一种基于FPGA的Coinet小波算法实现对电能质量暂态扰动的实时性检测。采用数字滤波器实现小波算法的方式,在Simulink/DSP Builder环境下设计了以Coiflet小波为基函数,搭建出高通和低通数字滤波器模块。对暂态电能质量中几种扰动信号源进行的仿真实验,并且给出了信号暂态扰动的起始和终止时刻。该方法对扰动源的检测延迟在ns级,结
期刊