基于最大熵模型的OCR错误校正方法

来源 :第十六届全国图象图形学学术会议 暨第六届立体图象技术学术研讨会 | 被引量 : 0次 | 上传用户:lllljx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  OCR(光学字符识别)是指先获取带汉字的图像,然后对图像文件进行分析处理,获取文字信息的过程。在识别出文字之后,如何利用上下文信息来纠正识别错误的字,也是就所谓的错误校正,进而提高识别正确率,是OCR中重要的课题。本文介绍了一种基于最大熵模型的校正方法,很大限度地利用了上下文信息,可以同时纠正多个识别错误的汉字,在实验中取得了很好的效果。通过对比几种不同的校正方案,可以看出基于最大熵模型的错误校正方法是最有效的,也是扩展性最好的方法,它可以方便地利用各种语言特征,更进一步的提高准确率。实验结果表明基于最大熵的模型是一个很适合OCR校正的模型。
其他文献
伊格尔顿的共产主义思想研究主要借用拉康精神分析的语境与框架,以想象域、象征域和真实域三个基本范畴来厘清并重新审视共产主义的演变.通过对自我、他者、世界三者关系的研
  提出了一种滤波系数可变、系数和不变的1/4像素精度插值算法.算法以目前视频编码标准H.264中运动补偿的分像素内插算法为基础,根据视频图像情况确定滤波系数.与H.264标准
方达律师事务所:你所于2000年7月3日报送的《关于:FlexSystem Holdings Limited 在香港联合交易所有限公司创业板上市事宜》的法律意见书收悉。经审阅,现函复如下:法律意见
  针对航拍视频易受风力和机械震动等因素影响而产生随机抖动的问题,本文提出了基于SURF特征和Kalman滤波的航拍视频稳定方法。本方法在每帧图像中提取稳定的SURF特征点后,使
  过渡区是图像中介于目标和背景之间的特殊区域,针对传统的过渡区提取的梯度算法对噪声敏感及过渡区像素灰度变化频繁的特点,提出一种基于局部熵信息测度的过渡区提取与分割
  SAR图像去嗓是后期分割和识别等关键的预处理过程。本文在对国内外SAR图像去噪文献进行理解和分析的基础上,阐明SAR图像相干斑噪声产生的机理,综述了用于SAR图像去噪的主要
  分布式视频编码(DVC)是一种编码端低复杂度低码率、在解码端挖掘帧间视频信息冗余性的视频编码算法。本文提出一种基于压缩感知理论的DVC算法,在编码端对原始视频帧进行块
会议
  将把谱间相关系数高且变化相近的几个连续波段的超光谱图像作为是视频序列,使用基于视频压缩的帧间预测方法对的超光谱数据预测编码;而对谱间相关系数很小或变化不一致、突
关注乡村变化、书写乡村发展是乡土小说最为重要的创作主题.在新的时代和生产方式面前,乡土小说发展书写并不缺乏素材,却失去了力量,这着实是一个令人困惑的问题.发展叙事是
 1951年秋,在抗美援朝的同时全国开展了爱国增产节约运动。运动中揭发暴露了大量的贪污腐化、铺张浪费及官僚主义问题。  共产党执政仅两三年,由于不法资产阶级分子施放糖衣