论文部分内容阅读
本文的研究内容主要是针对中文邮政地址识别的薄弱环节,着力于提高整个中文邮政地址识别识别系统的性能,从二值化、脱机手写汉字分割、脱机手写汉字识别、后处理等方面进行了研究,并在此基础上,实现了一个中文邮政地址识别的检索系统。 论文主要工作如下: 1、本文提出了一种区域二值化算法。该算法对复杂的纹理,背景及过黑、过亮点具有较好的适应性,其耗用的时间约为局部二值化耗时的1/4。 2、本文根据脱机手写汉字的形状特征,采用竞争的动态规划方法实现了一个脱机手写汉字串的切分方法。对于正常的书写,其分割正确率可以达到80%。在该算法中,采用Viterbi算法作单字之间的分割,采用动态规划方法寻找最佳分割路径。 3、本文提出一种基于局部傅立叶变换和小波变换的脱机手写汉字识别的细分类算法。这一部分的工作是在本人手写数字识别的工作基础上,将该算法应用到脱机手写汉字识别中,在原有的识别核心的基础上,根据识别可信度,调用细分类算法。测试信封样本中收集的四万个手写汉字样本,在原有的识别率上,提高近4个百分点。 4、本文提出一种字典驱动的地址串切分算法提取信封地址中的汉字地址。在该算法中采用多路径分割,多个识别候选与地址字典相匹配,从众多的识别候选词中选择权值最大的候选作为识别结果。实际运用中对于信封地址行的识别取得了较好的效果。 5、本文提出了一种基于非完整字符匹配的后处理算法。该算法主要针对字符串中含有五个汉字以上的词组,并且假设分割能够有75%以上的正确率,脱机手写汉字的前十候选有95%以上的正确率。该算法用于实际信封中单位名称的识别,单位名称的查出率在95%以上,而且耗时较短。 6、在以上研究工作的基础上,实现了一种中文邮政地址识别检索系统,该系统在测试样本上运行性能良好,目前已经通过项目方的验收。该系统的二期工程,用于实际信封的检索也即将完成。