论文部分内容阅读
数字化技术和数字存储技术的发展推动了中华民族五千年文化遗留下来的书法作品的数字化进程。原始的历史书法作品每件都是唯一的,存在于纸张、石头、绢丝或者竹简上,因容易破损而珍藏在博物馆里不允许随便翻阅。数字化使历史书法作品拥有数字形式的备份,得以在数字图书馆中长久保存,使用户能随时、随地、随意地浏览和欣赏民族文化瑰宝,更好地传承了民族文化。 然而,数字化书法作品同时也带来了新挑战:在当前OCR技术无法将书法字识别成文本从而进行检索的情况下,如何为这些作品提供有效的检索服务?在当前依靠主观经验难以人工鉴别大数据量数字书法作品真伪的情况下,如何在计算机辅助下为书法作品真伪鉴别提供客观、量化的评判? 本论文的目的是提出数字书法处理的理论、方法和技术,研究如何在不识别书法字的情况下检索书法字,研究如何提高数字图书馆中大数据量书法字检索速度,探索如何结合图像处理技术和人工智能技术以底层图像特征量化表达高层语义(书法风格)特征,从而辅助进行书法作品的真伪鉴别。主要完成了如下工作: 1.基于形状的书法字检索。提取书法字轮廓特征,在不对书法字图像进行识别的情况下而直接根据样例检索书法字。其思路在于构造书法字形状矩阵,检索在形状上与样例相似的书法字。对检索目标不在书法数据库中的情况,提出并展示了合成用户所需风格的新书法字的方法。 2.书法字快速检索。系统响应时间对拥有大数据量书法作品的数字图书馆至关重要,本文提出了三种加快书法字检索速度的途径:通过先粗略剪枝后精确匹配的方案缩短总体计算时间;通过动态投影时序校准算法、支持不等长序列的2D动态校准算法,缩短匹配算法所需的计算时间;采用高维索引的PK树索引书法字的高维特征,加快存取和查找的时间。 3.书法风格学习。书法风格是描述书法字、辨别不同书法家作品的关键,因此本文采用机器学习的方法,描述了如何用底层图像特征量化表征高层书法风格特征;其思路在于,从书法字的笔划形态特征和结体形态出发,统计和分析不同书法家书法字的稳定性书写特征,提出了个性风格特征的选取及其权重计算方法,构造了个性风格特征向量。 4.书法作品真伪鉴别。与数字图书馆书法收藏联系在一起的是书法真伪鉴别,因此本文提出了计算机辅助书法作品真伪鉴别的系统框架、工作原理;提出针对可疑作品所宣称的作者构造真迹模型的方法,对比分析真迹模型与可疑作品的每一个特征,检测可疑点并给出作品是真迹的可能性概率,同时提供量化的“可怀疑证据”及置信度。