论文部分内容阅读
OCR(光学字符识别)是指先获取带汉字的图像,然后对图像文件进行分析处理,获取文字信息的过程。在识别出文字之后,如何利用上下文信息来纠正识别错误的字,也是就所谓的错误校正,进而提高识别正确率,是OCR中重要的课题。本文介绍了一种基于最大熵模型的校正方法,很大限度地利用了上下文信息,可以同时纠正多个识别错误的汉字,在实验中取得了很好的效果。通过对比几种不同的校正方案,可以看出基于最大熵模型的错误校正方法是最有效的,也是扩展性最好的方法,它可以方便地利用各种语言特征,更进一步的提高准确率。实验结果表明基于最大熵的模型是一个很适合OCR校正的模型。