论文部分内容阅读
脱机手写体汉字切分是脱机手写体汉字识别的基础,其准确率直接影响识别的正确率,该问题的研究对提高识别的系统性能具有重要的意义。本文以脱机手写汉字为研究对象,对汉字投影切分算法的相关问题进行了研究,提出了改进的切分方案并对方案进行了实现,主要工作和创新如下:1)在手写体汉字的书写过程中,会出现字符粘连现象,该现象一直阻碍着手写体汉字的切分准确率的提高。针对上述问题,本文提出了基于多阈值和多切分策略的间隙切分算法。在阈值选取上,该算法采用多个的空隙阈值分别进行切分,最终选取切分效果最优的切分方案;在切分策略上,采取多步切分策略,对过疏远或者过紧密的字符串分阶段进行处理。实验证明,较传统的投影切分算法,该算法的切分准确率有了一定的提高。2)在基于多阈值和多切分策略的间隙切分算法的基础上,本文通过对影响切分准确性的若干因素进行研究,加入了标点符号切分块的标识、非规范性笔画的修正、各切分块的块长统计等处理,提出了基于极小阈值和曲线拟合的垂直投影汉字切分算法。该算法针对多阈值处理过程繁杂且不够客观的问题,使用极小阈值进行切分,并制定了相应的后期合并策略;针对阈值法寻找切分点的不确定性问题,在行切分和字切分的再切分阶段,采用曲线拟合方法寻找切分点。与一般的投影切分算法相比,该方法在一定程度上提高了切分正确率,并且适用性更广。