自然场景图像文本信息提取的理论与方法

被引量 : 0次 | 上传用户:qwm777
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
复杂场景中的文本信息能够提供重要的语义信息,基于这类语义信息的应用很多,例如机器人智能导航,图像自动翻译,图像自动标注,车牌识别等。但是,复杂场景中的文本信息提取面临着巨大挑战,包括复杂的背景,文本图像分辨率不高,文本图像几何形变等问题,而其中一个非常普遍的问题就是文本图像的几何形变,这种主要是由于相机拍摄角度造成的几何形变也逐渐受到研究人员的关注。本文主要研究了如何对形变的文本图像进行纠正和定位,以及研究了几何形变对图像恢复算法的影响。针对文本图像纠正问题,本文提出了改进的最小化秩的方法对图像进行纠正。通过二值化和背景亮度反转,使得文字图像具有低秩结构特征。所提出的算法可以鲁棒的纠正单个字符。此外,为了增强算法的稳定性,本文提出了多个文字联合纠正的算法,该算法可以稳定的求解位于同一平面多个字符的几何变换参数。大量的对比实验证明了相比于传统的算法,所提出的算法能够有效纠正仿射形变和透视投影形变的文本图像。提出了一个几何形变文本图像定位的算法框架。该框架结合文本图像的笔画宽度特征(局部特征)和低秩特征(全局特征),可以自动定位并且纠正复杂场景中的多角度几何形变的文本区域,所得到的检测结果能够极大提高目前光学字符识别引擎的识别率。此外,提出了几何形变文本区域定位算法的评价准则,该准则基于真实标注的文本区域与实际检测的文本区域相交面积与相并面积的比例。大量的对比实验证明了与其他算法相比,提出的算法能够较为准确检测文本区域。针对图像恢复问题,本文主要研究图像去模糊问题。分析了几何形变对清晰图像统计特性的影响,考虑了不同的图像先验约束,包括total variation(TV)算子及其变种算子,提出了一系列增强的图像去模糊算法。大量对比实验证明了考虑几何形变去模糊算法能够增加图像恢复的质量。此外,提出了基于几何形变的非均匀模糊图像恢复算法。该算法通过模拟非均匀模糊图像的物理生成过程,将模糊图像看成是一系列几何形变图像的积分,用少量的相机运动轨迹参数代替复杂非均匀模糊核估计,与传统的非均匀模糊图像恢复算法相比,算法能够有效恢复出原始清晰图像。提出了一个多几何形变的参数联合估计算法。该算法不需要分析文本行排列,仅利用文本图像低秩特性进行参数估计。通过增加两个相交平面拥有一个相同“消失点”约束,提高算法估计的准确性。通过移除非文本区域,增强算法的稳定性。该算法能够容忍噪声,通过适当扩展,该算法能够解决多平面几何纠正问题。大量对比实验证明了所提出算法对几何变换参数估计的准确性。
其他文献
牡丹江中下游地区指镜泊湖以下至依兰县这一地区,包括黑龙江省宁安、牡丹江、海林、林口、依兰等县(市),是唐代渤海国的中心统治区之一,上京龙泉府就在这一区域,这里是渤海国
<正>"绝对的权力导致绝对的腐败"。渎职侵权职务犯罪造成的后果不仅扰乱了国家的正常工作秩序,也扰乱了社会主义市场经济秩序和人民的工作生活秩序,更为严重的是侵犯了法律尊
亲属作证特免权属于作证特免权中的一类,是基于这样一种情形而出现的:当证人是犯罪嫌疑人或者被告的亲属时,证人就会徘徊在大义灭亲和亲亲相隐之间,从而难以做出选择。那么,
<正> 尿素循环是哺乳动物除去体内过剩氨的方式。参与这一循环的各种酶(见图),都可能发生遗传性异常,由此产生一类称为尿素循环失调的罕见疾病。除了鸟氨酸甲酰磷酸转移酶(OC
郑州延伸企业管理有限公司由郑州大学EMBA学员自愿以每人5万元现金入股,共筹资300万元于2011年9月成立。目前公司正处于发展初期,由于股权高度分散、各股东持股数目相同,各位
随着客户对眼镜的质量和眼镜品牌服务的不断关注,客户对眼镜质量,眼镜品牌服务质量的要求日益提高。对于JINS眼镜而言,客户不仅是服务的对象,更是企业的利润源泉,客户对眼镜的质量
人工授精手术一方面满足了不孕不育家庭对生育后代的渴望,另一方面也成为某些人谋取非法利益的手段。在巨大利益的引诱下,买卖人体胚胎、强取人体胚胎、非法实施人工授精手术
视神经是连接眼球和视交叉的中枢神经白质纤维,是视觉信息传导至大脑皮层的必由之路。外伤性视神经病变是目前临床造成永久性视力损害的一个重要原因,但目前临床常规检查尚不
<正>城市交通管理是城市政府行政管理职能的重要组成部分,城市交通的发展对于城市经济发展具有十分重要的作用。许多发达国家交通管理的成功经验主要体现在交通管理体制由分