【摘 要】
:
随着信息时代的到来,不同领域都在进行智能化改革,信息电子化、办公自动化已成为必然趋势。表单作为日常工作和生活中常见的信息表现形式,具有布局灵活、表现形式多样、易于理解等优点,极大地方便了信息的收集、展示和传递,在各行各业广泛应用。但是纸质表单电子化的过程如果只靠手工录入过于耗费人力资源,因此利用计算机实现表单图像识别有着迫切的现实需求。由于表单图像存在结构复杂、获取过程中质量参差不齐等问题,使得表
论文部分内容阅读
随着信息时代的到来,不同领域都在进行智能化改革,信息电子化、办公自动化已成为必然趋势。表单作为日常工作和生活中常见的信息表现形式,具有布局灵活、表现形式多样、易于理解等优点,极大地方便了信息的收集、展示和传递,在各行各业广泛应用。但是纸质表单电子化的过程如果只靠手工录入过于耗费人力资源,因此利用计算机实现表单图像识别有着迫切的现实需求。由于表单图像存在结构复杂、获取过程中质量参差不齐等问题,使得表单图像识别仍然是一个具有挑战性的研究方向。现有表单识别方法,通常适应性不强,尤其在表单图像出现扭曲、表单长度可变等情况下,性能大幅度降低,甚至无法处理。本文围绕表单识别问题中扭曲表单图像识别和可变长表单图像识别两个问题展开研究,提出了基于局部空间匹配的扭曲表单信息提取和基于布局结构迁移的可变长表单信息提取两种算法,并以此为基础设计开发了一个表单识别系统。本文的主要工作如下:1.提出基于局部空间匹配的扭曲表单信息提取算法。图像中表单出现扭曲形变等情况时,一般的模板匹配算法难以有效定位到相应区域。因此,本文在提取模板图像和待处理图像上参照区域的特征之后,提出多阶段匹配算法完成参照区域的匹配,然后利用多因子加权函数构建局部映射关系对待识别区域进行定位,从而一定程度上缓解了由于表单扭曲导致待识别区域定位错误的情况。同时,本文建立了扭曲表单图像数据集FID,以待识别区域重叠度为评价指标,本文方法在该数据集上取得了88.5%的准确率。2.提出基于布局结构迁移的可变长表单信息提取算法。可变长表单是指表单中某一区域的同类别信息条目数不固定的表单,这使得同一类表单的不同实例间表单的结构差异较大。因此,本文首先以图的方式对模板图像进行建模,以参照区域和待识别区域为节点,将区域间的位置特征和区域的语义特征进行融合作为区域间的关系特征,将模板上的参照区域与待识别区域间的布局结构迁移到待处理图像,然后采用条件随机场的消息传递算法对模型结果进行优化。同时,本文建立了可变长表单图像数据集FIV,在数据集上该方法取得了85.63%的准确率。3.设计了一个表单识别系统。在上述两个工作的基础上,本文整合了预处理和后处理模块,完善了对表单图像信息识别的整体流程,并从运行用时、区域准确率以及识别准确率三个方面将该系统与现有的表单识别API进行了实验评估。实验结果表明本文设计的系统在FID和FIV数据集上均比现有的表单识别API表现更好,具有一定的实际应用价值。
其他文献
湿地是重要的国土资源与自然资源,是三大生态系统之一,也在我国自然生态环境组成中占据着重要地位。湿地在调节气候、涵养水源、蓄洪抗旱、保持生物多样性等方面发挥着重要作用。但由于基建占用、过度开发利用等原因,我国湿地出现了面积减少、生态服务功能退化、生物多样性减退等问题。其中,湿地面积的减少是实现湿地可持续发展的最大威胁。湿地占用补偿制度,是指用地单位要遵循“先补后占,占补平衡”的基本原则,在湿地被征收
在提高对外开放水平以及保护国内生态环境的背景下,本文基于全国277个地级市2003-2018年的数据,运用面板门槛模型研究了外商直接投资(FDI)、环境规制以及雾霾污染之间的关系。基于以往的研究,本文将FDI对雾霾污染的影响机制分解为结构效应、技术效应、规模效应以及规制效应,并利用综合指数法对各省市自治区以及地级市的环境规制强度进行了测度。本文运用固定效应模型检验了FDI与雾霾污染的关系,并进一步
在疫情和“双碳”背景下,国内ESG投资基金在规模增长的同时也涌现出投资策略仍以负面筛选为主,对ESG各方面未综合考虑等问题。目前,国内在ESG投资基金这部分的研究仍是大多数集中在发展现状,对于投资策略研究较少。随着ESG披露,在国外ESG整合策略已逐渐替代负面筛选策略,并且已有的研究也表明ESG因子有良好的表现,这些都为本文的策略优化提供了理论基础。因此,本文主要从选股策略和择时策略两大方面深入研
小镇青年是一个成长于县域地区的群体,他们拥有着区别于城市与乡村的独特生活方式。伴随着生活发展与个体成长,部分小镇青年不满足于小镇并向往着城市的生活方式。在社会竞争日趋激烈的当下,进入城市意味着高昂的生活成本。住房作为生活成本和生活意义的重要组成,是他们落脚于城市所必须解决的问题。在个体难以凭借自身能力解决住房问题时,家庭作为他们的生活与社会的资源为他们提供了支持。这种代际间的支持,是一种家庭一体化
绿色债券在中国绿色金融发展中占据重要地位,于国家政策支持下蓬勃发展,意在为中国绿色产业、项目的开展提供低成本的资金来源。而在双碳目标下,“绿色”逐渐成为国家发展底色,绿色金融迎来巨大的投资机遇,也将为绿色债券市场带来更大活力。明确绿色债券发行价格的影响因素,能够为发行人以更低的成本推进绿色项目以及为投资者判断绿色债券发行价格合理性提供参考。本文首先梳理了国内外绿色债券市场及其发展和发行价格的相关文
改革开放以来,我国经济得到了前所未有的增长,但同时也面临着严重的环境污染和资源枯竭问题,受到了党中央和国务院的高度关注。在“十四五”时期,随着绿色金融重要性的提升,2021年政府工作报告首次记载“碳中和、碳达峰”相关内容,体现出我国绿色金融业务将迎来高速发展时期。绿色资产支持证券是一种以绿色金融为中心的资产证券化产品,是我国金融市场中一项新颖的融资工具,不仅具有盘活资本,增加流动性,隔离风险的优良
<正>国家发展改革委近日印发了投资项目可行性研究报告编写大纲,具体包括《政府投资项目可行性研究报告编写通用大纲(2023年版)》《企业投资项目可行性研究报告编写参考大纲(2023年版)》和《关于投资项目可行性研究报告编写大纲的说明(2023年版)》(发改投资规[2023]304号)。为帮助有关单位、机构和人员准确理解把握可研大纲精神和要求,抓好可研大纲贯彻实施,在国家发展改革委固定资产投资司的指导
物理概念是物理学习的基础,模型建构是学科核心素养的重要构成要素之一。高中物理学科的学习过程中强调概念的转变,也强调学生核心素养的养成。而学生对概念的理解与建模能力的发展并不是割裂的,而是协同发展的。因此,基于学习进阶理论与建模教学研究基础,将学习进阶发展层级模型与建模教学发展层级模型进行整合,建构起概念理解与建模教学整合式进阶的教学模型,并在此框架的基础上设计教学流程与具体教学案例,为教师的课堂教
<正>日前,农业农村部公布2022年全国休闲农业重点县名单,全国有60个县(市、区)被认定为2022年全国休闲农业重点县。其中我省鞍山市千山区、岫岩满族自治县榜上有名。2022年,农业农村部组织开展全国休闲农业重点县申报和监测工作,聚焦拓展农业多种功能、挖掘乡村多元价值,推动资源适度集聚,经县级申报、省级遴选、专家评审和网上公示等程序,最终确定休闲农业重点县名单。