论文部分内容阅读
在一幅图像中,文字相对图像中其他内容来说含有更多的信息,如果能够从图像中正确识别这些文字,那么将对图像检索、图像分析和图像理解等工作起着重要的辅助作用,因此自然场景中的文字识别也越来越受到研究学者的关注。传统的字符识别(OCR光学字符识别)技术历经多年的发展已经相对成熟,但它只是针对背景单一、分辨率及对比度较高的扫描型文档进行识别,在对自然场景中的文字进行识别时并不能取得令人满意的效果,这是因为自然场景文本图像中存在不均匀的光照、运动模糊、污损以及背景复杂等问题,如何在识别过程中克服或弱化这些问题是我们研究的主要方向。本文重点研究与探讨了自然场景中文字识别中的特征提取和特征选择两项关键技术,主要内容如下:(1)本文在积分通道特征(Integral Channel Feature)和特征池(Feature Pooling)技术的基础上提出了一种针对自然场景条件下的文字识别方法。我们在已有的研究基础上,结合pooling策略对图像的特征表达方法进行了改进,同时对多种通道特征和相关参数进行了实验验证。实验结果表明,我们提出的方法对识别自然场景图像中的文字具有较强的适应能力,对旋转和光照不敏感,相对于其他方法具有结构简单和识别率高的优点。(2)本文提出了一种基于Relief F和MSVM-RFE的多类特征选择算法,用于解决自然场景文本图像因其背景复杂等原因导致图像特征中存在大量的不相关和冗余特征的问题。我们主要对特征评价函数进行了改进,使用Relief F和MSVM-RFE两种算法的权重对图像特征进行综合评价,并在迭代过程中不断增加MSVM-RFE算法的权重比例。实验中,我们与支持向量机训练权重方法、Relief F算法和MSVM-RFE算法进行了对比,结果表明,我们提出的综合特征评价方法对图像特征更具辨识能力,在去除冗余和不相关特征时获得了更好的效果。