论文部分内容阅读
针对实际应用场景中如何在大批量图像文件中快速找到中文印刷体文本图像文件进行OCR (Optical Character Recognition)识别的问题,本文在笔画宽度变换算法(SWT)的基础上,设计了针对中文文本固有特点的启发式规则,并将水平投影技术与离散傅里叶变换相结合,提出了一种适合倾斜角度在–90至90°之间的中文印刷体文本图像文件识别技术.实验结果显示,在1606张测试集图像文件的识别中,本文算法针对文本图像文件整体识别F值(F-Measure)为0.95,平均识别耗时为0.65 s.