论文部分内容阅读
随着光学、摄影等技术的不断发展,图像日益成为人们日常生活中不可或缺的部分。与此同时,新兴的图像处理技术尤其是数字图像处理技术不断涌现。作为数字图像处理的一个分支,文本图像处理在上世纪末兴起,并引起了许多研究者的关注。伴随着全球信息化进程的加快,网络逐步成为人们获取知识和信息等的最主要途径,在这种情形下,书籍作为传统的知识信息的载体已经不能很好的满足人们的需求了。为了推进书籍数字化的进程,并便于其在网络上的传输、阅读,贝尔实验室发布了DjVu技术体系。作为文本图像处理技术的新成员,DjVu以其较好的图像显示质量、较高的压缩比等特性脱颖而出,成为文本图像处理领域应用最广泛的技术之一。本文首先简要介绍了数学形态学的基本知识,主要从数学形态学的起源、数学形态学在图像处理中的应用以及数学形态学的四种基本运算三个方面展开;然后探讨了ShuChen等为了更好的实现汉字字符图像压缩而提出的基于形态学的误差图谱构造算法,并深入分析了误差图谱构造算法的连接部分膨胀浮动机制;最后根据汉字本身的特征以及数学形态学的相关知识,结合DjVu技术体系的特性设计了汉字图像的预处理方案。本文提出的汉字图像预处理方案即基于形态学的方向性膨胀连接修复算法,主要受到了Shu Chen等所提算法中膨胀浮动机制以及连接的相关定义的启发。该算法首先结合DjVu技术体系的存储特点,提取连接部分的图像特征,作为计算膨胀尺度的参数;其次,根据汉字自身的特征提出了相应的连接部分走向判定算法,判定算法大致将连接部分分为三类:横向、竖向和混合走向;然后根据走向的不同,有选择的计算膨胀区域;接着检测膨胀区域内是否存在其它相邻的连接部分,依据此作为判定是否存在连接的条件;最后,如果存在连接则根据不同的走向执行不同的连接修复策略。通过若干组图像处理结果的对照和分析,均表明该预处理方案能够很好的处理因噪点造成的汉字断笔画现象。