论文部分内容阅读
文字作为人类高层语义信息中最直接的表示形式,场景图片中的文本在图像理解中扮演着不可或缺的重要角色,并且有着广泛的现实应用。例如,在无人机巡航、视觉障碍辅助系统、自动驾驶和网络内容监控净化等方面都有着广泛的应用前景,因此场景文本识别一直备受关注。但由于场景图片背景复杂、光照不均匀、光照对比度低、文本多样性以及拍照时所造成的图像文本透视变形等因素使得成熟的光学字符识别技术并不适用于自然场景文字识别。因此场景文字识别已经成为计算机视觉领域中一个重要的研究方向,但现有技术方法中大多数是面向中英文识别的,维吾尔文识别研究却少之又少。自然场景中文本检测是自然场景文字识别的前期环节,其目的是判断不同场景图像(警示牌、街道标志等)是否存在文本,若存在则定位文本所在位置。由于缺乏开放且标注好的自然场景中的维吾尔文样本集直接影响了场景维吾尔文检测与识别工作的高效快速开展。本文针对这一问题,探究并借鉴了深度学习和图像分割的方法生成了人工的维吾尔文图像样本数据集。实验结果表明所采用的深度学习和图像分割方法有效,且生成的人工维吾尔文样本数据非常真实即文字能够自然地融合到自然场景图片中,高效快速地为自然场景中维吾尔文检测提供非人工标注数据。同时针对维吾尔文字符独有的特性,本文改进了单深层神经网络结构用于提取自然场景维吾尔文的多层级和多尺度特征,依据自然场景中的维吾尔文文本行的特征,设计了多尺度规格、多长宽比的默认框以适应自然场景中的维吾尔文检测的需要。改进的单深层神经网络,由维吾尔文特征提取组件和多特征融合文本检测组件组成,以端到端的方式训练学习预测维吾尔文文本框的位置以及文本置信度。经自然场景维吾尔文检测实验表明,改进的单深层神经网络方法考虑了图像的多尺度和多层级征对检测精度的影响,算法的准确率和F值分别为0.7234和0.6115,提高了检测的准确率。