论文部分内容阅读
随着手机、平板等智能移动终端的普及,使用移动设备的摄像头所拍摄的自然场景图像大量涌现。文字作为人类最具影响力的发明之一,在人类生产和生活当中一直扮演着十分重要的角色,是自然场景图像的重要组成成分之一。它包含着丰富的语义信息,是人类思想和情感表达的重要载体,在自然场景中随处可见。与其他对象相比,人们往往更加关注图像中的文字部分。检测图像中文字所在的位置,将其提取并识别出来对场景图像的分析有着重要的意义。 本研究阐述了目前场景文本检测领域中存在的困难和挑战,以及常用的文本检测特征及方法,并对它们的优缺点进行了分析,提出了一种基于单样例的文本检测算法,通过计算目标图像与单样例图像之间的特征相似度,对自然场景图像中文本区域进行初步定位,显著减少了MSER算法所提取的文本候选区域中的非文本区域。对于文本候选区域,使用几何约束和笔画宽度特征,进一步移除其中的非文本区域。最后合并特征相似的文字区块,提取出图像中的文本区域。由于基于学习的算法需要大量的训练样本、训练速度较慢,另外在拥有复杂背景的自然场景图像中采用 MSER算法易检测到大量的非文本区域,本文所提出的算法针对以上问题进行了改进。实验结果表明,与其他算法相比,该算法能够准确检测出图像中的文本区域,达到理想的定位效果。提出了一种基于学习和多通道MSER的文本检测算法,有效的解决了传统 MSER算法对模糊、低对比度以及不均匀的光照敏感等问题。首先对彩色边缘图和对比度增强图像提取 MSER区域作为字符候选区域,然后结合卷积神经网络提取字符的高级特征,使用SVM对这些特征进行训练得到一个理想的文本与非文本分类器,从而增强了文本检测算法的性能。