【摘 要】
:
随着OCR技术的不断发展以及印刷体字符识别技术的不断完善,人们对识别的要求也越来越高。商场购物小票,它是消费者购物时由商场或其它商业机构给用户留存的销售凭据。一张小小
论文部分内容阅读
随着OCR技术的不断发展以及印刷体字符识别技术的不断完善,人们对识别的要求也越来越高。商场购物小票,它是消费者购物时由商场或其它商业机构给用户留存的销售凭据。一张小小的购物小票实际上承载着重要的信息,它记录了消费者的消费习惯,消费水平和消费需求等,也能告诉商家不同的消费者喜欢什么类型的商品,如何根据消费者的习惯和消费需求摆放商场货物等。事实上,购物小票给我们提供的信息远非如此。为了更好的挖掘购物小票背后的价值,我们需要对购物小票进行有效的识别。购物小票图像的有效识别是我们亟需解决的问题,而字符分割的准确性是影响识别率的重要决定因素,也是一个难点问题。本论文的主要研究内容是购物小票图像的字符分割算法。主要内容包括:数据采集。针对不同超市的购物小票不同和同一家超市由于购物数量和品种的不同而给顾客的小票不同的特点,按长、中、短的规则收集购物小票,并经扫描仪扫描成质量较好的图像。对现有的灰度化、二值化、平滑去噪、倾斜校正、版面分析等预处理步骤进行了介绍并提出改进算法。特别是在二值化处理中,通过多组的对比实验,对这些二值化结果进行分析比较,总结各种二值化算法的优缺点,选择适用于小票图像的最佳二值化算法。在进行小票图像的分割处理时,在行分割阶段,由于行与行之间可能存在粘连的问题,提出了一种基于投影直方图二次分析的方法。把直方图看作波形信号,经过滤波处理,寻找波谷点,即行切分的位置,该方法能有效的解决行与行之间过密的分割问题。在字分割阶段,提出了一种用于汉字部件间合并的规则,该方法能有效解决左右结构汉字的分割问题。并与一般的分割方法进行大量的对比实验,结果表明,本文分割算法优于一般的分割算法,且能满足实用要求。
其他文献
网络编码允许节点对多个数据包进行运算编码,当接收节点收到足够数量的编码包后,可以应用相应的编码系数进行解码。相关研究表明,当网络编码被应用于组播及无线网络传输时,可
覆盖算法作为一种构造型分类建模算法,以其训练速度快、分类效果好而著称。在现今互联网时代,时常面对较大的数据集训练和分类的挑战,因此提升机器学习算法的训练速度和分类
高光谱图像通常具有纳米级的光谱分辨率,能提供丰富的地物空间信息和光谱信息,被广泛应用在精细农业、环境监测、现代军事等诸多领域。高光谱图像在具备诸多优势的同时也存在光谱维度高、光谱相关性大、噪声多、样本少等特点,这给高光谱图像分类过程带来了诸多问题和挑战,研究如何解决上述问题提高分类效果,是高光谱遥感领域的重要研究课题之一。针对高光谱图像分类过程中样本难以获取、样本数量少的特点,本文从降维、去噪和特
在非结构化P2P网络(unstructuredpeertopeernetworks)中,由于对网络的节点及资源分布没有统一的管理,资源的查找易形成大量的网络查找消息负载。同时由于网络节点的异构性,节点在
海量数据的增长使得有用信息和知识的获取变得更加困难,作为一种能自动、智能地将待处理数据转换成有用信息和知识的数据处理、分析技术,数据挖掘已经在各行各业的知识发现和数
如今恶意程序是互联网遭受的主要威胁之一,僵尸网络、钓鱼网站、恶意邮件等等本质上都是恶意程序,通常也简单地将恶意程序称为病毒。安全厂商每天收到成千上万份病毒样本,为了尽
随着自然语言处理从单文本内部转向多文本之间,作为文本间实体链接的纽带,跨文本指代消解越来越凸显其重要性。与传统的面向信息检索的跨文本指代消解不同,信息抽取中的跨文本指
随着信息技术的飞速发展,二维条码逐渐渗透到我们生活的各个方面。通过扫描二维条码获取信息已成为我们日常生活消费中重要的便捷方式。其中二维条码PDF417目前应用最为广泛,已
无线传感器网络(Wireless Sensor Network,简称WSN)是自组织的分布式网络系统,由一种微型传感器构成,这种传感器具有无线通信能力与计算能力,它可以根据具体环境在无人操作的
在现代社会中,电能已经是一种最为广泛运用的能源形式。然而,随着现代电子技术的广泛应用,电力系统存在着大量非线性、冲击性和波动性负荷,造成电能质量严重降低。另一方面基于计