论文部分内容阅读
女书是世界上最具性别意义的文字,这种由女性创造、女性使用的文字从文化层面上反映了女性的集体智慧,是一种非常珍贵的非物质文化遗产。女书文献主要依靠手工抄写的方式传承,而随着女书传人的相继去世,女书文献的收集和整理变得更加困难,女书文化濒临消失。由于年代久远,不同载体上的女书字符图像多数背景复杂,且不易提取和分割,这个问题严重影响了后续字符切分和识别等信息化处理的质量和效率。针对此问题,本文将脱机手写文字分割技术应用到女书文献的信息化上,进一步推进女书这一宝贵的中华民族文化基因的传承和发扬。本文首先讨论了图像分割中常用的二值化算法,分析了这些算法在图像分割应用上的优点,同时也指出了算法中存在的问题。接着,本文重点研究了经典的MST分割算法(Mask-Based Subtraction Technique)和LLT分割算法(Logical LevelTechnique),分析并讨论了算法涉及的参数,指出了算法中存在的问题。针对MST算法运算速度慢以及内存消耗大等缺陷,本文重点分析了该算法中字符笔画宽度W和阈值T的计算方法,提出了利用六个特殊边缘点和统计法的方法来获取字符笔划宽度W以及利用图像中所有邻近像素点线形均值与此像素点差值的均值来获取阈值T的方法来改进MST分割算法。实验结果表明,改进的MST分割算法具有分割效果好和稳定性等优点。LLT算法具有噪声敏感度低,运算速度快等优势。为解决复杂背景下女书字符图像分割处理中存在的问题,本文提出了改进的LLT分割算法。首先对图像边缘像素点进行扩展,以减小分割时产生的误差,然后结合图像中各区域的灰度分布情况,给出了一种基于区域特点的自适应局部阈值计算方法。实验结果表明,与原LLT算法和经典的OTSU算法相比,本文提出的改进LLT算法不仅去噪能力强、分割准确度高,还具有较强的适应性。