背景复杂的机票信息识别算法的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hualanfengyi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在交通、信息高度发达的今天,一般的航空公司每天也要处理几万张飞机票。而在中国,纸质机票须保存5年以上。飞机票上的信息,如机票号,票价,座位等级等等,必须录入数据库保存,以便日后有需要时,进行查询之用。这就需要大量的人力去完成这项录入工作。人工录入不但录入慢,而且错误多,不可靠。因此,开发一个机票信息的自动识别系统,解决航空公司信息自动化问题有重大的实际意义。 在我们先前的研究中,我们已经开发了一个机票信息自动识别系统。该系统能快速正确地识别出机票号(包括票联号、机票顺序号和校验码)和航空公司号。该系统已经中国上海航空公司使用了两年,处理了近1千万张飞机票。其识别率高达97%。但随着信息自动化的不断深入和发展,票价信息也迫切要求自动识别,以便可以与计费系统等联系,快速准确地统计某些有用信息。 在机票中,票价区域背景模糊,灰度不均,加上不规则表格等的干扰,使得票价字符的定位与分割难度加大。票价中多种字体的存在,使得同一文字在不同字体下有较大的差别,而某些不同文字在不同的字体下又有相似的特征。这使得识别难度加大,加上票价没有校验位,这对识别引擎的可靠性方面提出了更高的要求。用单一神经网络作为识别引擎存在可靠性不足、识别率不高的缺点,因此,先前开发的识别系统不能套用在票价识别上。为了解决背景模糊、表格线等于扰,本文探索了一系列的图像处理算法,如我们采用了在灰度级上应用数学形态学的腐蚀膨胀的方法来去除水平线;使用了一种图像填充算法恢复文字图像特征。为了更准确地识别出票价信息,最大程度地避免误识的出现,我们采用的包括反向传播神经网络和卷积神经网络在内的混合神经网络的方法进行识别。针对某些特殊字符我们采用的是两种的级识别的模型,成功地解决了票价识别的问题。 本文描述了机票识别中,票价识别的具体过程。对在背景复杂、表格线等干扰严重的票据中,文字定位、分割和识别算法都作了详细的介绍,并给出了整套算法的实验结果。
其他文献
空间数据是近年来一类快速发展、广泛存在的、重要的复杂数据,因此对空间数据进行分析具有重要的意义。空间数据挖掘技术能在空间数据仓库中挖掘与空间相关的隐含知识,为空间数
本论文工作源于国家自然科学基金项目(40372129,40202030)和北京市自然科学基金(4062020)以及珠海市基金项目(200531009,PC20051094)。近年来,城市目标监测是遥感技术的重要方向
CT(ComputerizedTomography),即计算机断层成像,是用来获取观测目标图像的一门技术。CT图像重建算法是CT应用的核心技术之一,CT图像重建的过程是由投影数据获得原图像的过程。在
随着互联网技术的发展、大数据时代的来临,人类享受着信息爆炸带来的巨大机遇,同时也面临着“信息过载”的挑战。个性化推荐技术继网页分类目录和搜索引擎技术之后,成为当前解决
在现代企业中,考勤是非常必要并且是非常重要的一项工作。随着电子技术的发展,新的考勤方法出现了。计算机考勤系统作为企业管理系统的一个子系统,能通过计算机网络来提供准确的
随着网络技术的不断发展,网络游戏己经成为电子游戏产业中增长最为迅速的游戏类型。据预测,2006年全球网络游戏市场年增长率在100%以上,增长潜力巨大。正因为如此,网络游戏已经成
随着分布计算和网络技术的不断发展,传统的数据库技术已越来越不能满足数据共享和互操作的需要。作为数据共享与集成主要手段的多数据库与中间件技术由于其广泛的适应性、投资
Internet上以Web服务为主,具有信息量多、结构复杂、负载重等特点。一些统计数据表明,Web服务器有可能成为Internet应用的瓶颈。通过采用某些技术,减少网络流量,降低对网络带宽的
在信息化高速发展的今天,电子商务在国家经济活动运作中发挥着越来越重要的作用,而数据在传输及应用过程中的安全是其重要作用的一个基本保障!公钥基础设施PKI是目前网络安全建
随着信息世界的快速发展,系统与软件安全问题在个体与国家等不同层面越来越被重视。多年来,安全研究员们针对内存泄露类攻击提出了多种防御技术,这其中栈不可执行技术、地址