论文部分内容阅读
图像中的文字定位与提取是当前热门且具有实际应用意义的课题。随着数码产品的普及,网络中出现大量来源于各种场景下的图像,检测和识别这些图像中的文字在工业界正越来越受重视。 由于图像的分辨率和对比度不确定,自然场景图像中的文字字体形状、大小和方向也不固定,且受到复杂背景和阴影的干扰,通过分析现有算法,发现大多算法是针对水平方向或者近似水平方向的文字检测,且在背景复杂、文字多变的情形下存在查全率和查准率低、鲁棒性差等问题。因此,基于由粗到精的检测思想,针对图像文字检测中的特定问题提出了相应的检测方法: 1、在检测文字过程中,现有算法普遍设定的阈值和参数过多,可检测的图像文字模式单一,对单张图像的处理时间过长。针对此问题,提出基于频域纹理特征的图像文字检测算法,首先对图像进行离散余弦变换,计算频域中块的纹理值并与阈值相比较得到候选的文字块,根据文字在图像中的几何属性确定最后的文字区域。 2、在选取字符的特征过程中,现有的算法选用的特征大多是字符的边缘、笔画宽度和颜色等特征,未能很好的把这些特征融合在一个算法中,导致在检测不同场景图片文字时鲁棒性差。针对此问题,提出基于字符笔画宽度和颜色聚类的图像文字检测算法,算法有效的融合了字符的三个典型特征,并对字符的笔画宽度给出了新的计算方法。通过提取图像中的梯度、宽度和颜色特征,使用K-means算法和ISODATA算法先后对图像像素点聚类,把获得的文字类像素点映射到同一幅图像中,根据文字的几何属性和形态学方法确定文字所在类,并剔除误检区域。 通过在ICDAR数据集和一些专家收集的图像数据集上进行实验,与现有方法相比,本文算法一在粗定位和精确定位阶段均能取得较好的效果,且计算复杂度较低。算法二在水平方向的文字定位能达到现有算法的效果,同时在复杂场景中任意方向文字检测效果有明显提高。