论文部分内容阅读
随着智能移动终端的普及和互联网的发展,自然场景正在以图片的形式被记录和分享,图像中含有丰富的信息,而其中最主要的是自然场景中文字的信息,这些信息服务于语言翻译、导航、多媒体信息检索等具体的应用。文本检测识别是上述应用实现的关键步骤,其检测的准确程度关系着图像应用的准确性和广泛性。由于自然场景图像的背景复杂,字符多变,容易受到光照,拍摄方位以及拍摄设备等因素的影响,为文本检测带来了许多不确定性。因此,对自然场景的文本检测技术进行研究有着重要的意义。本文对自然场景文本检测的算法进行研究,主要从候选连通区域的提取,候选文本区域的形成以及文本非文本区域的分类这三个方面对算法进行改进。(1)应用最大稳定极值区域进行候选连通区域的提取,为了减少后续工作的时间复杂度和计算量,以及文本分类的正确率,本文在该算法中提出了平滑的方法对嵌套的最大稳定极值区域进行剪枝去冗余;(2)利用笔画宽度变换在候选区域进行筛选,将笔画宽度变换与最大稳定极值相结合,并提出了丢失字符恢复的算法进行多方向文本的检测;(3)在进行文本和非文本区域的分类时,充分考虑AdaBoost与SVM的优缺点,提出了AdaBoost-SVM级联的分类算法。结合深度学习,使用卷积神经网络进行文本检测,为了有效的检测复杂场景下的文本检测,本文对文本候选区域进行比例和尺度的设定,为了在小区域获得较多的特征,将卷积层进行融合。本文在上述几个方面对文本检测算法进行改进,在文本检测常用的数据集ICDAR2013上进行水平方向的检测,在MSAR-TD500上进行多方向的检测,实验结果表明:本文的算法可以检测任意方向的文本,同时在背景复杂、光照不均等因素干扰的图像中均取得较好的效果,显著的提高了文本检测的准确率和召回率。