论文部分内容阅读
中国书法是一门古老的汉字书写艺术和视觉艺术,承载着中华民族几千年的文明,是中国传统文化中的瑰宝。数字化技术的飞速发展,使中国书法得以通过数字化的形式保存、共享,展现在人们的面前。然而经过长期的历史变革,有许多汉字的古今字形发生了非常大的改变,对于普通用户来说,很多书法字他们无法识别,迫切需要书法字图像识别工具,而采用传统的OCR技术识别效果较差,因此书法字图像识别研究具有重大的应用价值。CADAL (China Academic Digital Associative Library)数字图书馆收集了大量历史书法作品,建立了带有语义标注的书法字图像库。本文基于CADAL数字图书馆的中国书法字图像库,进行了中国书法字图像识别算法研究,具体贡献如下:(1)提出了基于LSH的大规模书法字图像快速精确检索策略。对待识别书法字图像进行快速精确的相似性检索。首先对书法字图像库中的书法字图像和待识别书法字图像进行去噪、二值化和归一化的预处理,并提取书法字图像的全局GIST特征;然后利用LSH进行快速检索,初步筛选出前X个相似书法字;之后,提取待识别书法字图像与这X个初步筛选出的书法字图像的形状特征,进行基于形状特征的精确检索,得到前N个相似书法字,从而保证检索的速度和准确率。(2)提出了基于检索的书法字识别算法。首先基于CADAL带有语义标注的书法字图像库,利用本文提出的基于LSH的大规模书法字图像快速精确检索策略对待识别书法字进行快速、精确的检索,然后根据检索出的前N个相似书法字图像的语义标注计算权重,从而给出识别结果。实验中对书法字图像识别过程中涉及的特征提取和相似性度量等方法进行了对比。(3)将书法字图像识别算法应用于CADAL数字图书馆书法系统中,并基于该算法实现了书法字图像标注系统,用于书法字库建设。