论文部分内容阅读
在交通、信息高度发达的今天,一般的航空公司每天也要处理几万张飞机票。而在中国,纸质机票须保存5年以上。飞机票上的信息,如机票号,票价,座位等级等等,必须录入数据库保存,以便日后有需要时,进行查询之用。这就需要大量的人力去完成这项录入工作。人工录入不但录入慢,而且错误多,不可靠。因此,开发一个机票信息的自动识别系统,解决航空公司信息自动化问题有重大的实际意义。
在我们先前的研究中,我们已经开发了一个机票信息自动识别系统。该系统能快速正确地识别出机票号(包括票联号、机票顺序号和校验码)和航空公司号。该系统已经中国上海航空公司使用了两年,处理了近1千万张飞机票。其识别率高达97%。但随着信息自动化的不断深入和发展,票价信息也迫切要求自动识别,以便可以与计费系统等联系,快速准确地统计某些有用信息。
在机票中,票价区域背景模糊,灰度不均,加上不规则表格等的干扰,使得票价字符的定位与分割难度加大。票价中多种字体的存在,使得同一文字在不同字体下有较大的差别,而某些不同文字在不同的字体下又有相似的特征。这使得识别难度加大,加上票价没有校验位,这对识别引擎的可靠性方面提出了更高的要求。用单一神经网络作为识别引擎存在可靠性不足、识别率不高的缺点,因此,先前开发的识别系统不能套用在票价识别上。为了解决背景模糊、表格线等于扰,本文探索了一系列的图像处理算法,如我们采用了在灰度级上应用数学形态学的腐蚀膨胀的方法来去除水平线;使用了一种图像填充算法恢复文字图像特征。为了更准确地识别出票价信息,最大程度地避免误识的出现,我们采用的包括反向传播神经网络和卷积神经网络在内的混合神经网络的方法进行识别。针对某些特殊字符我们采用的是两种的级识别的模型,成功地解决了票价识别的问题。
本文描述了机票识别中,票价识别的具体过程。对在背景复杂、表格线等干扰严重的票据中,文字定位、分割和识别算法都作了详细的介绍,并给出了整套算法的实验结果。