自然场景下的混合文本定位研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:ZGGILOVE
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景下的文本定位一直以来都是机器视觉领域的一个重要研究课题,在基于内容的图像检索、机器人导航、工业自动化和智能交通系统等领域都扮演着重要的角色。自然场景图像的文本定位算法有两个主要阶段:字符候选区域选取和字符分类。在字符候选区域选取阶段,传统算法一般采用级联过滤器的方式对候选区域进行筛选,文本召回率较低;在字符分类阶段,目前大多数算法采用有监督的方法利用数据库训练分类器。此类方法存在两个主要缺点:制作数据库代价昂贵、算法泛化性较差。本文通过研究分析场景文本定位的复杂性,在传统文本定位算法基础上进一步改进文本定位算法的流程与结构,最终提出一种无监督的文本定位算法,提高了文本定位算法的泛化性。本文的主要研究内容和成果如下:(1)分析了当前文本定位算法的研究现状,总结了当前在文本定位算法研究过程中所面临的研究难点。(2)在图像预处理阶段,本文首先通过简单线性迭代聚类(Simple Linear Iterative Clustering,SLIC)的方法对图像进行超像素分割,生成大小和分布都相对均匀的初级超像素。为了使超像素分割更加符合字符边缘,本文使用基于密度的聚类方法(DensityBased Spatial Clustering of Applications with Noise,DBSCAN)对初级超像素进行聚类,生成特征判别性更强、数量更少的高级超像素,并在接下来以高级超像素为单位对图片进行操作。以超像素为单位的文本定位算法,使得图片中所有的区域都能被分类,提高了文本定位的召回率。对初级超像素进行了聚类减少了候选区域的数量、增强了每个候选区域特征的判别性,降低了后期分类的难度和复杂度。(3)在字符候选区域阶段,首先为了解决一般显著性检测无差别检测无法突出文本区域的问题,本文提出文本显著性检测方法对文本进行有针对的检测。其次,为了解决最大稳定极值区域(Maximal Stable Extremal Region,MSER)召回率低和显著图准确率低的问题,本文提出将MSER和文本显著性检测结合的方法。MSER针对局部字符有较好的识别效果,而显著性检测则对文本目标区域整体的检测与定位十分有效。本文分析MSER和显著性检测之间的互补特性,并将上述两种方法有机结合,生成比MSER图和显著图置信度更高的文本图和非文本图。这两幅图为后续提取文本样本提供了重要的参考依据,所以也称为样本参考图。(4)在训练字符分类器阶段,为了解决传统有监督算法对数据库的依赖,本文提出文本样本选取模型。该模型利用样本参考图提取文本样本对分类器进行训练,达到无监督学习的目的。在样本提取时,该模型首先利用双阈值机制将所有超像素分为强文本、弱文本和非文本三类。与传统的单阈值二分类不同,本文的双阈值机制给文本分类提供了一个缓冲区域。双阈值机制将不能准确判断出属于文本还是非文本的超像素都分进弱文本类。因此,本文中的强文本、非文本比传统单阈值分类产生的文本、非文本拥有更高的分类准确性。本文将属于强文本和非文本的超像素分别视为文本正样本和负样本,同时利用正负样本的信息对多核增强分类器进行训练。属于弱文本的超像素将由训练好的多核增强分类器进行二次分类。最后本文通过大量的定性和定量实验,证明了本文提出的无监督文本定位算法能够更好地应对自然场景下复杂的混合文本定位任务。
其他文献
扬声器功率试验是测量扬声器性能的重要试验方法。对扬声器进行功率试验,是电声企业在研发和生产扬声器产品的过程中必不可少的重要测试环节。由于各领域对扬声器品质的高要
随着经济的快速发展和人们生活水平的日益提高,人们对钻石等奢侈品的需求也越来越大。中国早在2009年就成为了第二大钻石消费国。与此同时,越来越多的人因各种原因需要了解钻
随着图像处理技术的不断完善和发展,以及计算机应用水平的不断提高,边缘检测技术已经广泛应用于各个领域,在电声领域也得到很好的应用,扬声器的音膜是电声器件的重要组成部分
金钱的疼痛缓冲理论提出,金钱不仅具有工具价值,能用于交换商品和服务以应对疼痛,而且还能提供身心安全感,并像社会支持一样成为一种抵抗疼痛的保护装置。除了关心金钱在实验室研究中如何起到疼痛缓冲作用之外,本系列研究还对它在现实生活中如何发挥疼痛缓冲作用感兴趣。现实生活中,有些人能够不受疼痛干扰而继续工作并保持正常的生活,而有些人却因疼痛无法继续他们以前的正常工作或生活,这其中可能涉及到财务压力的作用。研
当前,国家对信息化建设工作高度重视,做出了一系列重大的国家信息化战略决策,如网络强国、国家大数据、“互联网+”行业、“智慧”城市等等,开启了中国特色信息化发展的新空间。广西电信IP网络经过近年的优化改造,基本实现了网络结构的扁平化、用户接入的差异化及业务承载的多样化,使得广西电信IP城域网网络层次结构清晰、设备性能优良,为多业务承载、QoS保障打下了扎实稳定的发展基础。同时,也为广西电信积累了丰富
知识整合是指通过整合独立学习情景下的相关知识,进而衍生出新知识的过程。值得注意的是,学龄初期儿童对知识整合的要求逐渐提高,而以往研究对学龄初期儿童的知识整合研究甚
中国工笔花鸟画,是中国画的重要分支,历史悠久,有着独特的绘画图式和审美追求。而当下中国工笔花鸟画如何面对传统和当下,绘画语言和艺术精神应该转向何方,在中国当代工笔花
本文论证,大卫·休谟为十八世纪英国道德与政治思想的一个关键议题,自然社会性问题,提供了一种全新的解决思路。休谟对“自爱”这一普遍但又含混的关键概念进行了根本上的重
随着经济的快速发展和人们生活水平的日益提高,我国居民的平均寿命显著增加,当前我国已经进入到老龄化社会,老年人已经成为一个重要群体。城市社区退休老年人是老年人群体的
随着互联技术与经济的发展,我国网店的规模不断的扩张,网店的商业价值逐渐显现出来,网店转让行为也逐渐增多。但是在网络交易平台经营者与网店经营者签订的网店服务协议中,却