视频图像中文本区域提取算法的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:fist001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像和视频中文本字符包含许多非常重要的有用的信息,如街道名称、商店名称、路标、交通标示、字幕等,这些信息对于图像和视频资料的自动注释、索引、压缩等方面重要的参考.图像和视频文本信息提取包括文本检测、定位、跟踪、提取、增强和识别几个部分.目前文字识别各种技术相对成熟并已经投入实际应用.相比之下,如何准确的将文字区域提取出来目前还处于探索阶段.其主要的难点在于:文本存在于复杂背景之中难以区分;文本存在严重的形变和几何畸变;自然环境下由于照度的不均匀、阴影、反射等原因等造成的文本图像的亮度变化.由于存在这些难点,才使得自然环境下的文本理解成为一个值得深入研究的课题.通常情况下根据文本对象的存在形式将文本分为人工文本和场景文本.目前的研究主要集中于对人工文本的研究,而场景文本的研究刚刚起步.文本提取的研究思路主要集中于应用各种图像处理的方法将文字区域的边角特征、色彩特征和纹理特征突出,然后根据一定的分类算法来划分候选的区域,经过进一步的后处理来最终确定实际的文本区域.在本文将文本的检测、定位与提取、作为文本区域提取整体来讨论,包含预处理、特征提取、分类(检测)、生成候选区域、文本区域提取几个步骤来解决文本区域的准确提取问题.在预处理和特征提取步骤中我们比较了应用边缘提取和小波变换来突出文本的边角和纹理特征;从处理后的特征图像中使用滑动窗口分别提取了原始灰度值和统计量作为特征向量.本文使用神经网络作为分类器,通过对比感知器和BP前馈网络的分类效果,选择使用BP前馈网络作为分类器.根据网络分类的结果结合特征图像,通过求取连通域,区域生长,投影分割三个步骤得到包含单行(列)的候选区域.最后使用通过样本统计得到的文本区域长、宽、面积、灰度等先验知识定义了一些判别规则来确定出图像中文本区域的位置.通过实验表明使用DB2小波变换后提取统计特征,经过BP前馈网络的分类可以较为准确的提取出文本区域,得到较为理想的评价指标.
其他文献
在DOS系统环境下,经常会使用GHOST软件对磁盘进行数据备份,从而当系统崩溃的时候,或是克隆分区安装新系统的时候,能够快速恢复源磁盘分区。在磁盘数据备份恢复的领域中,GHOST软件
Web服务(Web Service)技术在电子商务领域的应用已成为近几年IT行业中一个热门研究对象,其原因在于它提供了一种新的面向服务的分布式处理环境。在此环境中各个商业群体内部及
本文通过研究WLAN相关标准以及基于身份的密码学,分别提出了无线局域网(WLAN)中基于身份的密钥协商与鉴别方案和使用Weil配对的WLAN安全方案,这两种新方案使用了不同的密码算法,但
软件仿真可以在宿主计算机上模拟目标计算机的运行,是一项应用广泛的技术,从新处理器和新体系结构的设计与验证到系统软件的开发与测试都有许多实例.在航天领域,仿真系统的使
在当今世界的通信领域中,GSM(Global System for Mobile communication)数字蜂窝无线网络仍然是占主导地位的移动通信系统,它为移动台之间以及移动台和固定电话网络之间提供
网络会议是现代社会高效交流通信的一种常用手段。对会议信息加密是为了确保网络会议安全而采取的必要措施。在迅速发展的Internet 世界,电子会议系统已成为一个研究的重要课
应用高通量基因芯片技术,使得我们可以从以往对单个基因的局部、片面性研究,上升到对整个基因组的全局、系统性的研究层面。基因表达谱数据挖掘面临检测数据高噪音、维数灾难、
本文重点研究实时流环境下的数字视频水印处理算法,并对所提出的算法在一个实时视频直播系统中作了具体的实现。论文主要的研究工作体现在如下几个方面深入探讨了数字流媒体的
移动互联网的不断成熟以及搭载各种传感器的智能终端的广泛普及和应用催生了一个全新的研究领域——移动群体感知技术领域。移动群体感知以具有感知能力的移动设备为载体,以
本文对网格环境中的事务处理做了深入的研究,给出了一种新的事务处理模型。文中使用的研究和开发平台是Globus Toolkit 3.0。 本文总结了网格和网格服务环境中的相关概念。