基于OCR的快递单手写中文地址识别算法研究与系统设计

来源 :四川轻化工大学 | 被引量 : 0次 | 上传用户:shaoyan_8
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于使用条件和输入习惯等限制,部分中老年人不能适应电子面单的寄件方式,乡村和落后地区仍然需要使用手写快递单。在此背景下,本文研究基于OCR技术实现快递单手写中文地址的识别,将整个识别流程分为字符提取、字符识别、后处理三个部分进行算法研究,然后整合算法研究结果对基于OCR的快递单手写中文地址识别系统进行设计。字符提取中,本文提出基于阈值分割的快递单定位方法和基于投影法的手写中文地址字符提取方法,采取先定位快递单再提取地址字符的策略实现字符提取。基于阈值分割的快递单定位方法主要包括灰度化、阈值分割、形态学处理和连通域选择四个步骤。在阈值分割步骤中,针对Otsu算法分割精度不够高、弱光照条件下容易发生误分割的问题,本文提出一种基于双阈值Otsu算法的快递单分割算法,对比其他算法,得到了分割精度更好的结果,并且对光照强度变化适应性更强。基于投影法的手写中文地址字符提取方法主要包括倾斜校正、表格提取、地址文本行提取和字符切分四个步骤。在字符切分步骤中,针对垂直投影字符切分算法切分正确率不高的问题,本文根据汉字书写的特点和字符切分错误产生的原因,采取先过切分,再以字符宽度均值为基准进行字符重组的方法,对垂直投影字符切分算法进行改进,有效提高了字符切分正确率。字符识别中,为了提高地址识别的正确率,针对中文地址中存在高频字符的特点,以及公开数据集样本多样性不足的问题,提出了一种适用于手写中文地址字符识别的数据增强方法。该方法根据中文地址中各类字符出现频率的不同对数据集进行扩充,在丰富数据集样本多样性的同时,使高频字符得到更多的训练,从而提高地址字符识别正确率。后处理中,主要是对前两个处理过程可能出现的错误进行纠正,提出了一种适用于手写中文地址误识别的后处理方法,该方法分为判别和校正两个步骤,分别对两个步骤进行了算法设计。在判别步骤中,设计了一种基于正向最大匹配分词的误识别地址判别算法。在校正步骤中,设计了一种基于模糊匹配的误识别地址校正算法,该算法综合三种不同模糊匹配算法的优势对误识别地址进行模糊匹配校正,兼顾效率和正确率。在证实上述算法的有效性后,对快递单手写中文地址识别系统的硬件部分与软件进行了相应的设计。对系统进行测试,测试结果显示本系统识别正确率达到95.9%,满足识别要求,可以有效替代人工录入。本文研究结果在做简单调整后,可以应用到电子面单、其他类型单据、名片的识别中。
其他文献
纳米二氧化钛材料凭借其优异的特性,不仅已广泛应用于光催化、颜料、化妆品等领域,而且在光化学、电子、生物医学等先进前沿领域也具有广阔的应用前景。材料的结构及形貌决定了材料的性能,因此对二氧化钛纳米材料及其衍生材料的形貌和结构的设计制备一直是研究的热点。但仅仅是制备单分散的Ti O2微球也显得尤为困难,主要原因在于当利用有机钛酸酯作为钛源制备单分散的二氧化钛球形颗粒时,通常因其过快的水解速度,导致成核
学位
随着游戏理论的飞速发展,游戏化设计越来越多地在不同领域发挥作用。游戏化是指将游戏设计元素,应用于非游戏场景中。在众多应用中,教育领域是游戏化应用的研究重点之一。理论与实证研究证明,游戏化可以有效提升学生对学习的参与度和学习动机,从而对学习效果产生影响。教育领域已有的游戏化研究主要针对学科学习与技能培训的命题展开,重点在探讨游戏化设计中的心理学理论、游戏化设计的作用效果,然而缺乏针对用于学习习惯养成
学位
我国是一个农业大国,在农业生产中存在着大量的秸秆资源,这些资源因不易收集起来综合利用造成了极大的资源浪费和火灾隐患。稻草秸秆是其中较难收集利用的秸秆种类,稻草秸秆的粉碎过程是对稻草秸秆进行综合利用的关键环节,经过粉碎的稻草秸秆对于后续的利用更加容易。根据现有的秸秆利用方式的需求,秸秆综合利用都需要粉碎到一定的粒度才能进一步利用,受稻草秸秆不易粉碎的制约,稻草秸秆综合利用中高价值利用比例较低。本文针
学位
具有沉积充填和有利储层预测功能的预测地层学被广泛应用于盆地分析和油气勘探,经历了从层序地层走向源-汇系统的储层预测发展之路。为了应对“预测有利成藏要素(储层和盖层等)”的勘探挑战,Exxon地质学家创立了层序地层方法理论;为了解决“层序不一定控砂、低位不一定有扇”的勘探难题,地质学家将源-汇系统的概念和方法运用到有利储层预测研究中来,形成了源-汇控砂方法原理。文章讨论了层序地层的研究现状,梳理了海
期刊
随着近年来深度学习的发展,推动了计算机视觉技术在实际生活中的应用,行人检测和跟踪技术,逐渐成为计算机视觉领域重要的研究方向,本文基于深度学习中卷积神经网络,对视频中的行人进行检测与跟踪研究。全文主要的研究内容如下:(1)分析了行人检测和多目标跟踪技术背景。对行人检测和多目标跟踪技术的基本方法和理论进行研究。介绍了目标检测和多目标跟踪技术涉及的评价指标和多目标跟踪所涉及到的匈牙利算法和卡尔曼滤波算法
学位
陆地资源的日益紧缺,高效开发和利用海洋资源便成了我国发展的必经之路。而海洋生物污损对开发海洋过程造成了巨大的困扰,故基材表面的生物防除必不可少。而众多的防除手段中,最理想的是低表面能涂料,聚四氟乙烯涂层是低表面能涂层中最理想涂层之一,其超低的表面自由能使其具有憎水憎油,高润滑等特性。且由于其表面全氟结构,使其表面耐酸碱、耐腐蚀和耐候性。但超低的表面自由能让聚四氟乙烯涂层的附着能力极差,从而使其应用
学位
甲醛是一种高危致癌污染物,存在于装修材料、家具等,与人们的生活密切相关,严重危害人体健康。因此,如何有效、精确地检测甲醛含量,成为人们研究的重点。气液相化学发光法具有灵敏度高、操作简单的优点,且无需对样气先采样吸收再检测,弥补了现有化学发光法检测甲醛气体难以快速在线检测的缺点。气液相化学发光分析仪的关键部件在于液体与气体接触的界面材料,本文研究了气液相化学发光分析仪界面材料的制备及选择,并基于Tr
学位
随着人们精神文化需求日益增长,“独立出版”逐渐走进大众的视野。“独立出版”因为更独特、个性化的艺术表达吸引着人们的眼球。尤其是近年来北京、上海等地的艺术书展持续火热,使得“独立出版”更为市场所关注。首先,本文通过文献分析梳理、田野调查等研究方法,试图厘清我国“独立出版”的概念、特征、发展历程及现状,在此基础上分析我国“独立出版”的发展过程中可能存在的问题,其次,从公共物品理论的视角出发为“独立出版
学位
阴离子表面活性剂被广泛应用于人类日常生活及工业生产中,因此大量排放的阴离子表面活性剂废水为生物及环境造成了极大的危害。传统的吸附材料存在着吸附速率慢、脱附效率低及脱附成本高等问题,因此本文研究合成了一种以磁性材料为核心的,在外加磁场作用下能快速从体系中分离的阴离子表面活性剂捕获材料。以共沉淀法合成了油性Fe3O4,并通过乳液聚合的方式将苯乙烯与对氯甲基苯乙烯共聚包覆在Fe3O4上,最后加入叔胺利用
学位
脑肿瘤的发病率约为7-10人/10万,且具有较高的死亡率,是危害人类健康的常见恶性疾病之一。目前,脑肿瘤影像学检查方式的首要选择是磁共振成像技术(magnetic resonance imaging,MRI)。MRI不仅可以实现任意方位的断层扫描并且具有对结构组织成像较好、对人体无辐射影响的优点。通过MRI技术可以清晰地显示出肿瘤的形态,大小以及空间信息等特征。因此,在MRI图像上对脑肿瘤进行分割
学位