视频中的文字提取技术

来源 :天津大学 | 被引量 : 0次 | 上传用户:wangx315
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频中的高层语义信息很大程度上体现了视频的内容,而在视频中,文字信息均包含了丰富的高层语义信息。如若这些文字能被自动地检测、分割和识别出来,则对图像高层语义的自动理解、索引和检索是非常有价值的。视频的文字提取系统主要分为四个部分,文字事件检测、文字区域定位、文字分割与字符识别。本文针对文字区域定位与文字分割的算法进行研究。首先在文字区域定位算法方面,本文提出了两种算法,一种是基于小波变换的定位算法,运用了角点响应图像和小波变换高频子带综合图像,提取统计特征向量并作分类,然后利用字符的特征设定启发式规则来筛选误判区域,由于运用无监督学习的分类方法,该算法避免了样本训练等步骤。另一种是基于Gabor变换的定位算法,针对中文文字的定位,由于中文的笔画主要分布在四个方向,综合不同尺度的Gabor变换分类结果,得到比较理想的文字区域,实验表明,即使在检测定位低对比度的文字区域时,该算法也有比较好的稳定性。另一方面,文字分割是在文字定位之后、识别之前的关键步骤,为了从OCR得到更好的识别结果,文字分割要把文字区域的背景像素与文字像素分隔开。本文在文字分割方面提出一种基于彩色空间的文字分割算法,利用了经典的OTSU(大津法)和RGB彩色空间对像素先进行初步分类,再运用K-means聚类算法再对初步划分为文字像素的区域作分类,最终获取很干净的文字像素二值图像。实验表明,与其他经典的阈值类算法相比,该算法有更好的分割结果。
其他文献
由于无线通信媒介的开放性,非授权的窃听用户容易窃取到源节点发送给目的节点的数据信息。不同于密钥学,无线物理层安全利用无线信道的时变、多径等特性来防止窃听者解码源节点
无线传感器网络是近年来兴起的全新的研究领域,它综合了无线通信、电子技术以及微型电机等研究方向,该网络由大量随机散布的微小节点自组织而成,节点利用多跳或者直接传输的
二次雷达因为具备对目标位置、身份、高度和飞行状态等具体信息的报告,目前已广泛运用于军用和民用航空管制系统中,随着空中交通流量的不断增加,现有的空管系统已不能满足日
人数统计由于其的广泛应用已经逐渐成为计算机视觉研究的一个热点,基于视频的人数统计仅仅需要投入一次设备即可完成长久实时的人数统计,同时基于视频的人数统计方法具有准确