融合先验知识的场景文本识别应用研究

论文部分内容阅读

伴随着科学技术的快速发展,具有拍照功能的智能手机等多媒体终端产品也得到广泛普及,这使得人们获得日常生活中的自然场景图像更加容易,同时自然场景图像的文本提取和识别有着广泛的应用前景。本文将以拍照获得的医学化验单为例,融合化验单的先验知识,针对自然场景图像的模板匹配、文本定位以及识别技术进行研究,并搭建一套完整的文字识别系统。本文具体工作内容如下:(1)提出基于特征的模板匹配算法并实现,以确定待测样本对应的模板。该算法通过对化验单的样本和模板进行版面分析,得到样本和模板的版面特征。在进行模板匹配时,通过计算样本与各个标准模板之间的集合相似度,相似度最大的类别则作为样本所归属的类别。本文提出的模板匹配算法,能够在镜头畸变因素的干扰下改善模板识别的准确率。(2)改进文本定位算法并实现,对样本中待识别的文字区域进行文本定位及识别。改进的算法能够自适应搜索待识别区域,获得化验单各个具体项目的最佳定位坐标,进而对已定位的文本进行识别。本文提出的改进的文本定位算法,能够更加精准地获得待识别文字的坐标位置。(3)在新的模板识别算法和改进的文本定位算法的基础上,本文采用分布式架构方案,设计实现了一套完整的文字识别系统。系统包括图像录入、图像存储、图像处理、识别结果显示等模块。本文所采用的分布式方案能够提供并行工作和负载均衡处理的能力。测试结果表明,本文设计的模板匹配算法和改进的文本定位方法具有95%以上的字符识别准确率,达到了预期要求,本系统能够成功应用于工程实践。实验结果表明本文的算法是有效的,并且具有一定的实用价值,可以(但不局限于)应用于医学化验单识别系统的字符识别模块,对于具有固定格式的表格或票据的识别同样有效。

与本文相关的学术论文