复杂背景图像中的维语检测研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:Aegean1218
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络和移动设备的发展,我们生活中越来越多的场景需要机器去理解图像中的文本信息,而图像中的文本检测作为理解文本信息的前提,受到越来越多的研究者的关注。复杂背景图像中的文本检测是模式识别和图像处理中的重要的研究方向,但由于文字本身大小、颜色等的多变化以及背景的多样性使得文本检测的结果并不理想。目前很多研究者关注的是中英文检测,但作为使用人数众多的语言,做好维语检测的工作意义重大。本文主要是针对复杂背景图像中的维语文本检测,提出了一个高效的算法,并相应地开发了一整套鲁棒的文本检测系统。如何有效地提取候选文本连通区域一直是图像和视频中文本检测的重点问题。针对这个问题,本文分析了在文本检测领域为众多研究者所采用的最大稳定极值区域(Maximally Stable Extremal Regions,MSERs)算法。MSERs算法具有仿射不变性和稳定性的特点,但是对于文本与背景颜色对比不明显的图像,检测的效果并不理想。结合MSERs算法的优点和缺陷,本文提出了一个通道增强MSERs (Channel-enhanced MSERs)算法。针对复杂背景图像中的维语文本特点,本文算法的主要贡献如下:首先,通过通道增强MSERs算法进行候选文本连通区域的检测,这一步可以得到绝大部分的文本连通区域,但是也包含一部分非文本的噪声。接着,对于得到的大量的文本候选区域,先通过启发式规则去掉其中一些简单的非文本区域,再提取文本非文本的方向梯度直方图(Histogram of Oriented Gradient, HOG)特征,使用带一个多项式核的支持向量机(Support Vector Ma-chine, SVM)分类器进行文本/非文本的筛选。文本非文本的分类是文本检测之中的重难点问题,分类的准确度直接关系到整个系统的性能。然后,对于剩余的MSERs,具有相似特征的区域被连接成候选文本行,对于一些不完整的文本行通过一个扩展算法扩展成完整的文本行。最后,通过基于文本行的启发式规则去掉其中的一部分文本行噪声,最后提取文本行非文本行的一组纹理特征,使用随机森林(Random Forest)分类器进行文本行的筛选。为了验证上述算法和本文系统的性能,本文构建了一个新的训练测试数据集IMAGE570。本文系统在IMAGE570的测试数据上的F-measure达到85%,大大高于已有最先进的算法75.5%的效果。
其他文献
脑电溯源问题是从给定的头皮脑电位分布推算出脑内神经活动源的信息,脑电溯源问题具有优化算法的重要性和适定化的困难性,如何设计一种有效的学习算法能够在合理的时间内得出满
本文以嵌入式数据库软件的研发为背景,探讨了任务执行器的软件构架,旨在建立一个既满足实时性要求又能节省内存空间的任务执行模型。以面向对象/构件的方法为指导,借助统一建
近年来,随着全球经济一体化的深入发展,敏捷的、不受限制的业务集成已经成为研究的热点。不少企业希望能够实现集成企业内外的信息,同时又可以随时更新这样的集成,针对这一要
遗留系统是指已经交付并能使用的系统,目前的系统中存在大量的遗留系统。由于遗留系统存在技术陈旧、系统结构混乱、文档缺失和维护成本高等问题,它们面临着被淘汰,而如何利
图像复原是图像处理中的一个重要问题,对于改善图像质量具有重要的意义。图像复原是利用退化现象的某种先验知识(退化模型),按退化的逆过程重建图像的技术。噪声干扰和运动模糊是
随着信息技术的迅猛发展,大量的免费资源和网络服务大大提高了员工的工作效率的同时也让企业面临了新的挑战。如何有效地监控这些资源和服务,如何了解它们的使用状况,这类安
小波变换在图像处理中有非常重要的应用,包括图像压缩,图像去噪,图像融合,图像分解,图像增强等。小波变换是傅立叶分析思想方法的发展与延拓。乳腺癌是女性常见的恶性肿瘤之
本文在三维编织技术的基础上,结合Python、Tkinter和VTK等技术,开发了三维编织计算机辅助设计分析和可视化系统,并提出矩形组合截面四步法二次三维编织算法和四步法变截面方型编
模型检测是近二十几年来最成功的自动验证技术之一,一直以来主要用于检测时态逻辑,人们很少注意空间逻辑的模型检测问题,而在分布式系统领域,为了能够描述系统的空间结构性质
学位
WLAN Mesh网络标准模型主要包括Snow-Mcsh、See-Mesh和Wi-Mesh三种,随着技术的发展,IEEE802.11s工作组开始把这几种技术标准结合,推出了802.11s标准草案,为了保持与IEEE802.11系