视频图像中文本检测和提取技术研究

来源 :科学与财富 | 被引量 : 0次 | 上传用户:rxw257
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:近年来,随着宽带网络技术、新型多媒体技术和信息通信技术的飞快发展,我们步入了一个崭新的互联网时代。面对日益增长的视频和图像资源数据,如何有效快速的在海量的数据中检索和访问到我们所需要的信息变得十分有意义。视频资源中包含丰富的语义信息和视频关键内容,为此,对视频图像中文本检测和提取成为本文研究主题。
  关键词:数学形态学;文本定位;自适应阈值分割;字符识别;模板匹配
  一. 引言
  近些年来,科学技术的更新速度不断加快,科学方法日益创新。与此同时,多媒体数据库和多媒体信息检索的发展使得视频、音频和图像在我们的生活中扮演着越来越重要的角色。面对海量的视频和图像资源,有效快速的在海量的数据中检索和访问[1]到我们所需要的信息变得十分有意义。正在此背景下,解决上述问题产生的视频图像文本检测成为热点,因此本文开始对此展开研究。
  二. 视频图像中文本分类
  视频图像中的文本根据是否进行过后期制作所嵌入的文本或者根据图像的层次和维数可将其分为场景文本和人工文本(也称叠加文本或图形文本)两大类。
  场景文本是被摄影机或摄像机随当时场景捕获到的文本,场景文本存在于场景中,是场景的一部分。如汽车车牌、交通路标、商店名称、街道指示牌等等。
  人工文本是在后期制作嵌入的文本图形,在编辑阶段被整合到视频图像中。这类文本主要有新闻视频中标题纲要和时间,影视作品中的人物对白字幕、旁白字幕、片头和片尾;广告宣传和体育赛事中直播的比分信息等等。
  三. 视频图像中文本的特点
  通过分析我们得知视频图像有如下几个方面的特性:
  1.几何特性:
  (1)字体大小:
  视频图像中字体大小不一,但在理想过程中,视频图像内的文本不会超过屏幕的一半范围。视频中的文本,由于背景的动态干扰和时间的局限,文本大小一般不会太小。
  (2)排列方式:
  文本可以出现在视频帧图像的各个地方,可以按任意方式排列,但通常都是水平或竖直方向排列,而且还会集中在某一部分,例如像新闻电视的标题等。虽然有些文字方向可能改变,但是为了确保观看效果,都会连续几帧图像相同,例如像电视广告等。
  (3)文本间隙(字符间隔)
  通常,在一行的文本,文本间隙会保持统一,具有相同的间距。几乎不会连在一起。
  2.颜色特性
  为了便于观看,文本的颜色通常会与背景画面形成较强的对比,同一部分的文本颜色应该具有相同或相似的颜色。
  3.运动特性
  在视频场景中的场景文本由于摄像的移动而发生运动,而且规律不定;人工文本则考虑到更好的为人们观看,相同内容的人工文本会持续几帧。
  四. 视频图像处理
  (一)视频载入
  MATLAB软件自带的图像视频处理工具箱VideoReader函数能方便的获取视频的帧数等属性信息,也可获得相应的图像序列。read 函数实现对视频文件的读取。
  (二)视频帧提取
  通过MATLAB中VideoReader函数获取视频文件信息后,在GUI界面进行显示。其中最为重要的是对视频进行分帧处理,调用函数VideoReader进行if循环,并将视频帧图像进行临时保存到本地。
  采用while循环语句,进行帧图像的读取,当变量值改变的时候,保存当前帧图像。该图像即为所选择的待处理图像。
  (三)图像灰度化和二值化
  1. 图像灰度化
  数字图像可以分为灰度图像和RGB图像(真彩图像)。图像中的每一个像素都是由R、G、B三个分量按不同数值构成。如果三个分量相等,则表示为一种灰度色,即图像灰度化为使R、G、B三个分量相等的过程。
  2. 图像二值化
  灰度化图像的二值化处理在图像处理过程中不仅能使工作量减小,还能够突出目标图像的边界,以便后续的分析。在图像进行二值化前需要对图像进行灰度直方图分析,以此为基准选取合适阈值,当灰度大于所选阈值像素会被划为目标,其灰度值为255,否则为0。
  (四)图像数学形态学
  图像在经过了灰度化和二值化的处理过程中,导致会丢掉一些边缘像素,为了使其达到更好的效果,对二值化处理的图像进行数学形态学的填充或溶解。数学形态学的应用,可以简化数据,取消非相关结构,提高了速度。数学形态学的最基本运算主要有四种:膨胀操作、腐蚀操作、闭运算(开启)和开运算(闭合)。
  五. 视频图像文本区域定位
  文本定位算法主要有以下几种:
  1. 基于区域的文本定位:此方法也被称为基于连通区域的文本定位方法,一般情况下,视频图像中的文本的像素点具有相同或相似的颜色,而且文本的颜色和背景的颜色差别很大。因此可以根据这一特点来分割图像[2],通过颜色聚类等方法提取连接成分。再通过启发式规则进一步筛选,最终得到文本区域。
  2. 基于边缘的文本定位:基于边缘的文本定位主要是利用背景色和文本颜色的对比度或者是根据文本边缘找出文本的位置。
  3. 基于紋理的文本定位:基于纹理的文本定位方法是根据文本区域的独特特征和纹理而产生的。文本的纹理特征是文本的特定排列方式、文本颜色和背景色出现周期性变化。
  4. 基于学习的文本定位:基于学习的定位算法通常有两大类:支持向量机和基于神经网络。视频图像中文本颜色和背景颜色都是多变的,色彩信息是随机不够定的。如果只考虑到文本区域的固有特征会造成局限,因此我们考虑到用一种学习的方法来对其进行分离。
  本文中介绍了基于区域、基于边缘、基于纹理和基于学习的文本定位四种算法,这几种方法都具有各自的优缺点。前两种方法算法相对简单,比较容易实现;第三种方法算法复杂,增加系统的负担;最后一种方法过程复杂,需要的时间较长,它达到的效果也相对较好。因此为了弥补上述方法的不足,都会结合在一起使用,以达到更好的效果。
  六. 文本识别
  图像经过了上述的预处理和文本定位等处理后,便得到了待识别文本区域。文本识别过程主要有字符切分和归一化、字符的特征提取和字符模板匹配。
  字符切分分为确定字符边界和单字符切分。传统字符分割方法主要有两种,第一种是基于投影的字符分割,此方法根据文本字符间距的投影出现峰谷交替的特征来将图像分为单元块;另一种为基于识别的方法,它利用一个可变窗口将文本区域进行切分为成多种单元序列组合,最后通过识别引擎确定合适的切分序列。
  字符归一化是通过一定的算法将已切分的字符进行变换,使之成为大小尺寸相同的文字单元,字符归一化对后续字符的特征提取有很大意义。
  模板匹配是目前比较常见的一种方法,模板匹配是在检测前有已知的目标,然后利用此模板和待识别的图像进行匹配。它是利用模板,取目标与模板相似程度最大者作为最后的输出结果。
  七. 总结
  本文在现有研究的基础上主要对视频帧图像中文字的检测、定位、识别方法和实现手段展开研究。课题研究的重点主要为视频帧的截取、图像预处理、图像文本定位、图像字符分割、字符模板库的创建和字符匹配及识别六个方面。在视频帧的提取上,采用MATLAB自带的图像视频处理工具箱中相关函数对视频文件进行分帧处理,获得视频相应的帧图像序列。在图像预处理方面,一是对彩色图像进行灰度化处理,二值化处理。二是对图像进行形态学运算,对其进行处理后,可减少噪声干扰对图像的影响。在文本定位方法的选取上,本文采用了扫描法。图像字符分割采用阈值分割算法。字符模板库的创建和字符匹配及识别运用的模板匹配法是图像处理中最为常用的一种,通过已知的标准模式库和图像切割字符进行灰度值比较,以此获得最佳匹配字符。
  参考文献
  [1] 徐鹏,视频图像中文字提取方法研究:[硕士学位论文],天津大学,控制科学与工程,2012。
  [2] 杨磊,视频图像中的文字提取技术研究:[硕士学位论文],华南理工大学,信号与信息处理,2013。
其他文献
摘要:加强民用建筑暖通工程的技术研究具有重要意义,是保证民用建筑质量必要条件。本文分析了暖通施工中存在的问题,探讨了施工质量常见问题处理方法,最后指出了提高暖通施工技术水平的对策。  关键词:建筑;暖通工程;施工技术;要点  一、暖通施工中存在的问题  1.空调水循环系统  在进行建筑暖通空调工程施工中,核心的环节就是水循环系统。暖通空调施工中水循环施工中出现问题对整个暖通空调系统运行情况有非常直
期刊
摘要:随着人民生活水平的不断提升,工业管道对人们生活的影响逐渐加大,相关部门越来越重视其安装质量控制与管理。本文主要介绍了工业管道安装过程的质量问题,并进一步分析了如何提升工业管道安装过程质量的相关策略。  关键词:工业管道;安全质量;控制;管理;相关策略  一、工业管道安装过程的质量问题  1.缺乏监管力度  施工的质量管理,需要在施工过程中,施工过程后这两个方面跟进,也就是说,及时施工完成也需
期刊
摘要:综合管廊作为城市可持续发展的基础设施,正逐步得到推广建设。本文以华东地区某综合管廊为实例,从沟型选择、管线选型、断面设计等方面分析综合管廊纵断面、横断面等设计要点,并为其他类似工程提供借鉴。  关键词:综合管廊;沟型确定;管线选型;断面设计  0 引言  隨着城市化的发展,地下市政管网对管线种类和容量要求越来越高,管线容量已不能满足城市发展需求。由于城市综合管廊具有减少城市道路开挖、节约城市
期刊
摘要:建筑工程施工技术及其现场施工管理对工程的质量具有重要影响。故在本文中主要对建筑工程施工技术及其现场施工管理进行了简单的分析与探讨。本文分析了建筑工程施工技术和施工管理中存在的不足,并对建筑工程现场施工管理的措施提出了优化建议,  关键词:建筑工程;施工技术;现场施工;管理  施工技术对工程的质量有着重要的影响,它是一个工程在建设过程中的核心要素,是整个建筑企业发展和增强竞争力的根本。在现代的
期刊
摘要:随着我国在材料科学方面研究的进步,对于纤维增强复合材料的研究也有了非常大的进步,剑麻纤维作为一种纤维复合增强材料,目前在纺织、军工、日常生活用品制造等领域都有非常广泛的应用,并且随着更多剑麻纤维复合材料的研究使其具有了更加广阔的应用前景。本文对剑麻纤维的成分和性能进行了简单介绍,分析了剑麻纤维的表面处理方法以及一些典型的复合材料的性能。  关键词:剑麻纤维;复合材料;表面处理;性能  在军事
期刊
摘要:本文从人口资源环境、国土资源战略问题及布局、国土资源保护与合理利用、资源管理方式轉变等方面,阐述了城市国土规划的重要性。从国土规划的重要性出发,通过分析来探讨城市国土规划的特点。  关健词:城市;国土资源;规划;重要性;特点  1、分析国土规划的重要性  城市国土规划是一个比较全面、长远、综合的发展构想,通过明确资源综合开发的目标、方向和步骤,达到国土有效开发利用的目的。我国的对于国土规划工
期刊
摘要:变电检修工作的开展不仅有利于将电力设备隐患降到最低,同时也可保障电力的正常供应。由此可见,变电检修工作在电力设备维护中担当着非常重要的角色,完善变电检修工作具有非常重要的意义。结合实际工作情况,分析了变电检修工作中存在的问题,并提出了相应的解决措施,不断提高的基础上,最终使设备管理提升到一个更高的目标。  关键词:变电检修;变电设备;问题对策  0 前言  近年来,随着我国经济的迅速发展,各
期刊
摘要:指纹识别技术自出现以来一直被视为权威的科学证据,也是公安机关刑事侦查普遍采用的刑事技术手段。但是近年来随着其他技术的发展,使指纹识别技术出现了新的瓶颈和亟待解决的问题。  关键词:公安;痕迹;指纹  Abstract: the fingerprint identification technology has been regarded as the authoritative scient
期刊
摘要:本文在大量收集资料,查阅建筑工程书籍的基础上,对当前建筑工程的钢材选用和防护问题做出了简要分析,内容涵盖了建筑钢材力学、工艺、耐久性三大性能,最后在选用钢材后,分析了钢材的耐久性提升方法。  关键词:建筑工程;钢材;应用  引言  建筑工程中所用到的各类钢材统称为建筑钢材,是一种在严格技术质量条件下生产的材料,具有材质均匀密实,强度硬度高,塑性韧性佳,能进行切割、焊接、栓接、铆接,可承受较大
期刊
摘要:压力容器,是指盛装气体或者液体,承载一定压力的密闭容器。压力容器一出现,就凭借其抗压性、密封性等特性被广泛的应用到了化工、炼油、机械、动力、纺织、冶金、国防、核能及运输等行业。无损检测技术大大降低了压力容器在使用过程中出现事故的可能性。笔者结合压力容器目前的使用现状,进一步简要分析了压力容器无损检测技术的应用。  关键词:压力容器;无损检测技术;使用现状;应用;安全事故  引言:  压力容器
期刊