论文部分内容阅读
本论文和相关研究得到国家自然基金(基金号:60273090)的支持。特征提取是联机手写藏文识别进行中的关键问题。围绕这一难题,本文依据统计和结构两种方法的优点,提出了统计与结构方法相结合的特征提取方法。该方法是从藏文字丁的特点出发,对联机手写藏文识别的三个主要方面:预处理、笔段提取、笔划类型统计,进行了深入的研究,使抽取的特征相对稳定,藏文字丁的基本笔划类型更具科学性,这些都是同类联机手写识别系统中所未见的功能,同时联机手写藏文识别特征提取的研究为分类器的输入奠定了良好的基础,对提高整个系统的效率和实用性有很重要的意义。
所谓统计与结构相结合的特征提取的方法就是在藏文字丁的笔段抽取中采用结构的方法,即在对输入字的点阵图像进行字形纠正以抑制手写变形和噪声的基础上采用非线性规范化的方法和消除噪声的方法使得藏文字丁的特征稳定,进而由长短臂长动态结合的方法得到字丁的笔段;在藏文基本笔划类型的获取中采用统计的方法,分析各种笔划类型,提出笔划分类算法(如近邻法,树型分类法,基于最大最小距离试探的聚类搜索算法),对大量的样本进行笔划统计,得到16种笔划类型19种笔划的藏文基本笔划表。
将统计与结构相结合的特征提取模块和所得到的基本笔划加入识别测试系统,首位识别率最高为72.43%,前10位的识别率最高92.98%,平均首位识别率为67.34%,前10位的识别率为90.57%,比以前的识别系统的识别率平均首位识别率提高了7.63%,前10位的识别率提高了2.16%。