论文部分内容阅读
中文版面(特别是中文报纸版面)中文本域与非文本域经常交错嵌入。非文本域对文本域的提取会造成干扰。针对这种特点,本文提出了一种非文本块优先的中文版面分析方法。首先提取并去除文档图像中的非文本块,避免其对文本块提取的干扰。然后对文本域采用了基于游程平滑和最小生成树聚类的分析方法,对不同排版方式的文本分别进行处理。最后根据非文本块的位置,对聚类处理得到的文本块进行分割。实验表明,该方法对横竖混排的嵌入式版面有较好的分割效果。