论文部分内容阅读
随着社会的发展,电子文档的应用越来越广。因此,把记录在纸上的文字识别出来并转化为电子文档的OCR文字识别系统成为广泛关注的热点,相应的版面分割处理也成为重要的研究课题。
目前,随着复杂版面的出现,版面的编排已经不再局限为矩形。这使得传统的版面分割算法大部分已不再适用,同时处理复杂版面的各种版面分割方法应运而生。本文提出了一种基于一般图形Voronoi图的版面分割方法。该方法是一种基于连通域的分割算法。首先将文档图像进行二值化及滤波预处理,选择适当的结构元素对该二值化图像进行膨胀,然后把经过处理后的外部边缘作为一般图形Voronoi图的生成元,再根据离散生成法生成Voronoi图后与原图像进行并运算,从而完成最后的版面分割。该方法操作简单、有效,适用范围广,尤其对中文版的非Manhattan版面有很好的效果。