基于自适应区域建议网络与自注意力机制的自然场景文本检测研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xypcs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景中的文本有着丰富的语义信息,在自动驾驶、机器人导航、自动翻译等领域扮演着重要的角色,如何准确、高效地提取自然场景中的文本信息已成为当前计算机视觉的热点问题之一,此任务包含文本检测和文本识别两个子任务,前者是实现后者的前提。本文研究的是自然场景中的文本检测子任务,主要工作如下:(1)本文将采用基于Mask R-CNN框架模型的算法,因为其能够适应自然场景中的文本目标形状和旋转的变化。但原始的Mask R-CNN方法有较多的后处理步骤,这会造成效率的降低,同时也影响了性能。针对此问题,本文采用了基于角点回归的文本检测方法,并仅仅利用四边形非极大值抑制,对检测结果进行后处理。相比于原始的Mask R-CNN方法,该方法有着更少的后处理步骤和更高的文本检测性能。(2)原始的Mask R-CNN中的区域建议网络(Region Proposals Network,RPN)在训练时,需要人为设定一系列不同长宽比的锚点框(Anchors)。由于自然场景的文本目标的长宽比的动态范围较大,事先定义的尺寸难于覆盖这些范围,导致用于训练RPN的高质量正样本数量少,使得模型在测试阶段的文本目标召回率偏低。针对这些缺陷,本文提出了基于自适应区域建议网络的文本检测方法,有效地缓解了上述问题,并最终提高了文本目标的召回率。(3)原始的Mask R-CNN仅仅依赖感兴趣区域本身来判断目标的类别,当背景区域的纹理和文本相似时,上下文信息的缺失会导致算法常常将这些背景误判为文本目标。针对此问题,本文将自注意力机制的思想引入到文本检测任务中,该方法能够有效地构建候选区域的上下文信息,从而有效地抑制了伪正样本,因此提升了文本目标检测的精确率。本文上述提出的各种方法,其性能都在ICDAR 2015,MSRA-TD500等公开的数据集上得到了实验验证。
其他文献
我国是世界上人口最多的发展中国家,经济发展和人民生活水平提高,使城乡居民对医疗卫生服务的要求越来越高。“居家医疗”是通过全科医学服务,以居家形式为社区特殊人群提供医疗
今天,我们在这里召开全省首届职教教研工作会议,会议期间将有高水平的学术报告,有省职教教研改革和发展情况的介绍,有地方教研机构和职业学校的经验交流,还将对去年评选出的省职教
日前,梅林街道农村劳动力职业技能培训班在宁波市宁海职教中心开班。有92名学员参加中式初级烹饪师和计算机操作员培训。
为了进一步提高教职员工身体素质,促进教职员工健身运动的开展,桐乡市外国语学校工会,在校第九届学生运动会和体育节期间,开展了教职工健身跑比赛和趣味运动竞赛。健身跑比赛分老
这是一家设立在纽约的独立音乐厂牌,它之所以被人们赞扬不仅是因为它有着独特的音乐品质.还因为其有众多精巧、充满设计感的唱片设计。“12K”的音乐出版以声音艺术和实验电子
现在吹掉落在你一直想做的恐怖电影上的灰尘。Jason Arber说HD和DV叛逆者会帮助你。
有一则故事发人深省,耐人寻味。美国总统林肯在街头看到一份新到的《智慧》杂志,便翻阅起来,并随手买了一本回到宿舍翻看。突然,发现中间几页没有裁开。他用小刀裁开了它的连页,发
10月19日,国家电网四川省电力公司考察组赴四川省德阳市中江县玉兴镇现场踏勘,研究±1100千伏准东至四川特高压直流输电工程备选站址事宜。中江县玉兴镇太山村是±1100
探索的四主教学思想,通过重视学生的主体地位,增强学生参与意识和有效的参与,体现了教为主导学为主体,疑为主轴创为主旨,促进了学生自主发展.培养创新能力,大面积提高课堂教学质量,全
从合同的超前策划、施工过程中的制度建设、内部管控、施工资源的优质配置、施工措施与变更索赔的关系等方面,阐述了如何在水电工程项目特殊的施工环境下,合理的获取项目的最