论文部分内容阅读
视频中的高层语义信息很大程度上体现了视频的内容,而在视频中,文字信息均包含了丰富的高层语义信息。如若这些文字能被自动地检测、分割和识别出来,则对图像高层语义的自动理解、索引和检索是非常有价值的。视频的文字提取系统主要分为四个部分,文字事件检测、文字区域定位、文字分割与字符识别。本文针对文字区域定位与文字分割的算法进行研究。首先在文字区域定位算法方面,本文提出了两种算法,一种是基于小波变换的定位算法,运用了角点响应图像和小波变换高频子带综合图像,提取统计特征向量并作分类,然后利用字符的特征设定启发式规则来筛选误判区域,由于运用无监督学习的分类方法,该算法避免了样本训练等步骤。另一种是基于Gabor变换的定位算法,针对中文文字的定位,由于中文的笔画主要分布在四个方向,综合不同尺度的Gabor变换分类结果,得到比较理想的文字区域,实验表明,即使在检测定位低对比度的文字区域时,该算法也有比较好的稳定性。另一方面,文字分割是在文字定位之后、识别之前的关键步骤,为了从OCR得到更好的识别结果,文字分割要把文字区域的背景像素与文字像素分隔开。本文在文字分割方面提出一种基于彩色空间的文字分割算法,利用了经典的OTSU(大津法)和RGB彩色空间对像素先进行初步分类,再运用K-means聚类算法再对初步划分为文字像素的区域作分类,最终获取很干净的文字像素二值图像。实验表明,与其他经典的阈值类算法相比,该算法有更好的分割结果。