中国书法字识别算法研究及应用

来源 :浙江大学 | 被引量 : 0次 | 上传用户:chamcham
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中国书法是一门古老的汉字书写艺术和视觉艺术,承载着中华民族几千年的文明,是中国传统文化中的瑰宝。数字化技术的飞速发展,使中国书法得以通过数字化的形式保存、共享,展现在人们的面前。然而经过长期的历史变革,有许多汉字的古今字形发生了非常大的改变,对于普通用户来说,很多书法字他们无法识别,迫切需要书法字图像识别工具,而采用传统的OCR技术识别效果较差,因此书法字图像识别研究具有重大的应用价值。CADAL (China Academic Digital Associative Library)数字图书馆收集了大量历史书法作品,建立了带有语义标注的书法字图像库。本文基于CADAL数字图书馆的中国书法字图像库,进行了中国书法字图像识别算法研究,具体贡献如下:(1)提出了基于LSH的大规模书法字图像快速精确检索策略。对待识别书法字图像进行快速精确的相似性检索。首先对书法字图像库中的书法字图像和待识别书法字图像进行去噪、二值化和归一化的预处理,并提取书法字图像的全局GIST特征;然后利用LSH进行快速检索,初步筛选出前X个相似书法字;之后,提取待识别书法字图像与这X个初步筛选出的书法字图像的形状特征,进行基于形状特征的精确检索,得到前N个相似书法字,从而保证检索的速度和准确率。(2)提出了基于检索的书法字识别算法。首先基于CADAL带有语义标注的书法字图像库,利用本文提出的基于LSH的大规模书法字图像快速精确检索策略对待识别书法字进行快速、精确的检索,然后根据检索出的前N个相似书法字图像的语义标注计算权重,从而给出识别结果。实验中对书法字图像识别过程中涉及的特征提取和相似性度量等方法进行了对比。(3)将书法字图像识别算法应用于CADAL数字图书馆书法系统中,并基于该算法实现了书法字图像标注系统,用于书法字库建设。
其他文献
本论文主要是对分布式存储技术的原理进行了深入的分析,并对分布式数据库的设计与实现过程的进行了深层次的研究,在设计出空间数据表逻辑结构的基础上,对空间数据表进行了合
随着经济的飞速发展,银行业正在受到了前所未有的改变,银行若要立于不败之地,强大的软件开发技术,是支撑银行的一个重要保证。银行由于行业的特殊性,保证软件系统的安全,才能更好的
企事业单位网络中安全防御设备产生的海量日志具有多样性、高冗余度、看似“分散独立”却存在关联性的特点,现有传统的独立集中式日志分析平台计算能力有限,无法满足日志海量、
随着科技与经济地快速发展,汽车也被越来越多的人所拥有。虽然汽车的普及能够极大地提高人们的生活质量水平,但是其带来的交通安全问题也日益严峻,对人们的生命财产安全产生了极
随着移动Web的迅速发展,移动终端上的应用开始向多元化发展,以完成更加丰富和复杂的功能。由于本地应用的局限性,移动Web应用开始普及。人们将目光转向了移动混合应用,通过中
近年来,随着互联网的迅猛发展和移动设备的大量普及,尤其是大数据时代的到来,越来越多的数据需要处理,其中文本数据占据着越来越大的比重,如何对大规模文本数据进行高效地存储和索
随着云计算技术的迅猛发展,瘦终端系统将得到越来越广泛的应用,特别是当前手机、平板市场的跳跃式发展,瘦终端系统将依托云计算技术平台获得更多的机会,因此瘦终端协议的研究
信息时代的蓬勃发展给人们创造了无限机遇,并深刻地改变了以往的生活和交流方式,但同时作为各类应用中重要表达载体的海量数据给机器学习、数据挖掘和计算机视觉等领域带来了各
无线传感器网络是新兴的下一代传感器网络,是一门快速发展的高新技术,在安全监控、环境监测、健康医疗、前沿军事、精细农业、智能家居等诸多领域具有广阔的应用前景,这种新
近年来,随着互联网规模的扩大以及移动终端的广泛普及,诸如Facebook、Twitter、Tumblr等社交网络融入人们生活的方方面面,人们享受着随时随地发布分享、关注好友的动态更新等