论文部分内容阅读
针对OCR识别后文本中词错误校对问题,提出一种同一特征多角度结合的OCR识别后文本中词错误的自动校对方法。方法通过上下文相邻词与窗口移动法相结合为句子中字词串计算置信度,设计置信度计算方法判断正误,给出疑似错误位置;利用统计语言模型与同一特征多角度相结合的方式对错误处提出改进建议。采用检察院纸质卷宗OCR识别后的文本数据进行了测试,实验测试集中共包含236处错误。实验结果表明,所提出的方法能够有效发现文本中错误,查错召回率达到88.56%,纠错的准确率达到79%,上述方法能够有效实现OCR识别后的中