论文部分内容阅读
复杂场景中的文本信息能够提供重要的语义信息,基于这类语义信息的应用很多,例如机器人智能导航,图像自动翻译,图像自动标注,车牌识别等。但是,复杂场景中的文本信息提取面临着巨大挑战,包括复杂的背景,文本图像分辨率不高,文本图像几何形变等问题,而其中一个非常普遍的问题就是文本图像的几何形变,这种主要是由于相机拍摄角度造成的几何形变也逐渐受到研究人员的关注。本文主要研究了如何对形变的文本图像进行纠正和定位,以及研究了几何形变对图像恢复算法的影响。针对文本图像纠正问题,本文提出了改进的最小化秩的方法对图像进行纠正。通过二值化和背景亮度反转,使得文字图像具有低秩结构特征。所提出的算法可以鲁棒的纠正单个字符。此外,为了增强算法的稳定性,本文提出了多个文字联合纠正的算法,该算法可以稳定的求解位于同一平面多个字符的几何变换参数。大量的对比实验证明了相比于传统的算法,所提出的算法能够有效纠正仿射形变和透视投影形变的文本图像。提出了一个几何形变文本图像定位的算法框架。该框架结合文本图像的笔画宽度特征(局部特征)和低秩特征(全局特征),可以自动定位并且纠正复杂场景中的多角度几何形变的文本区域,所得到的检测结果能够极大提高目前光学字符识别引擎的识别率。此外,提出了几何形变文本区域定位算法的评价准则,该准则基于真实标注的文本区域与实际检测的文本区域相交面积与相并面积的比例。大量的对比实验证明了与其他算法相比,提出的算法能够较为准确检测文本区域。针对图像恢复问题,本文主要研究图像去模糊问题。分析了几何形变对清晰图像统计特性的影响,考虑了不同的图像先验约束,包括total variation(TV)算子及其变种算子,提出了一系列增强的图像去模糊算法。大量对比实验证明了考虑几何形变去模糊算法能够增加图像恢复的质量。此外,提出了基于几何形变的非均匀模糊图像恢复算法。该算法通过模拟非均匀模糊图像的物理生成过程,将模糊图像看成是一系列几何形变图像的积分,用少量的相机运动轨迹参数代替复杂非均匀模糊核估计,与传统的非均匀模糊图像恢复算法相比,算法能够有效恢复出原始清晰图像。提出了一个多几何形变的参数联合估计算法。该算法不需要分析文本行排列,仅利用文本图像低秩特性进行参数估计。通过增加两个相交平面拥有一个相同“消失点”约束,提高算法估计的准确性。通过移除非文本区域,增强算法的稳定性。该算法能够容忍噪声,通过适当扩展,该算法能够解决多平面几何纠正问题。大量对比实验证明了所提出算法对几何变换参数估计的准确性。