论文部分内容阅读
本文根据目前字符验证码的发展现状,对验证码识别技术进行了研究和探索。详细介绍了验证码识别过程中各个步骤所使用算法,总结了它们的优势与不足,对验证码识别的技术难点进行了分析。
二值化做为识别预处理步骤之一,用于简化和提取字符信息,包括全局阈值法和局部阈值法。准确提取字符是正确识别的基本前提,由于验证码图像的特殊性,其常包含复杂背景信息,使Otsu、Niblack等经典二值化算法得不到预期效果,从而严重影响了识别正确率。基于流水模型的二值化算法属于局部阈值算法,能够从特定图像准确提取前景信息,但需要在处理每张图像时以实验方式确定降水次数,该不足使其无法应用于验证码识别,为获得其二值效果,本文对该算法进行了研究和改进,并成功将其应用于验证码图像二值化,有效的提高了识别正确率。
本文主要工作如下:一、通过引入边界信息和笔画宽度,改变了原有算法的降水方式和单次降水量,使算法在固定降水次数的条件下对不同图像具有自适应性,能够提取到全部字符区域,并几乎不含噪声。产生的弊端是会产生字符缺损的现象。二、为解决字符缺损对识别的影响,本文借鉴Niblack局部阈值法的思想对算法进一步改进,获得了其在字符及附近区域能够准确提取目标信息的优点,从而取得良好的二值化效果和对多种图像的适应性,文中将改进后算法命名为基于流水模型的目标区域阈值法。三、使用Otsu、Niblack和基于流水模型的目标区域阈值法对三种不同类型的验证码进行实验,识别阶段分别选择了Bp神经网络和形状上下文理论进行字符识别,结果证明,与传统二值化算法相比,本文提出算法在两种识别算法下,均表现出更好的适应性和识别正确率。