论文部分内容阅读
甲骨文是中国迄今为止发现的最早的成熟文字系统,是汉字的来源,也是中国优秀传统文化的根源。现在甲骨文的研究已经进入信息时代,2019年在安阳市举行的纪念甲骨文发现120周年国际学术研讨会的开幕式上,甲骨文大数据平台——“殷契文渊”正式发布。该平台是甲骨文知识共享平台,对全世界的学者免费开放。由于目前甲骨文资源大多是图片,不利于该平台的数据进行输入、存储、检索、传输等,所以作为该数据平台研究团队中的一员,对甲骨文字进行识别研究工作愈加重要。本文主要研究拓片上甲骨文字的识别,文字识别的传统方法主要是基于“数据预处理+人工特征提取+分类识别”框架,对印刷体文字的识别率较高,而对于手写体的识别率并不高。甲骨文是殷商时期的手写体文字,异形体较多,数据样本少,并且拓片上的甲骨文还有背景噪声,所以识别有一定的难度。近几年,基于深度学习的脱机手写文字识别技术得到充足的发展,深度神经网络具有极强的图像多层次特征提取能力,能够描述文字图像不同级别的数据特征。因此,本文利用深度神经网络进行甲骨文字识别研究,设计具有较好识别能力的深度卷积神经网络甲骨文字识别框架。实验结果证明该模型能够较好地表达甲骨文字特征,达到较高的识别精度。本文的主要研究内容包括:(1)构建用于网络训练和测试的甲骨文字数据集。花费了一年的时间从甲骨文的十部著录中裁剪经专家确定的拓片上的甲骨文字图像,并裁剪该拓片上的甲骨文字,且对甲骨字进行标签标注,构成甲骨文字拓片数据集OBIS163。该数据集中的甲骨文字类别共有163类,每类共有300张原始图片,选出其中的250张原始图片作为训练集,剩余的50张原始图片构成测试集。(2)对数据集进行预处理操作。对数据的预处理操作包括数据增强、图像去噪和对其进行归一化操作。其中数据增强采用的是图像几何变换的方法,包括旋转、形变、缩放、遮盖等;图像去噪使用的是前馈神经网络去噪的方法,构造去噪神经网络对甲骨文数据进行去噪;最后采用零均值归一化方法对其进行归一化处理。(3)构建基于深度卷积神经网络的甲骨文字识别网络。首先了选取四种经典的神经网络在甲骨文字数据集OBI-CNN上进行识别实验,结果显示测试集的Top-5识别率最高只有70.71%,故提出了一个能同时兼顾甲骨文字识别速度和识别精度的网络模型,命名为OBI-CNN。该模型根据甲骨文字的特征设计,由于甲骨文字是用锐器雕刻而成,故字体多为条形,而非汉字的方形,故将部分方形卷积核更换为长条卷积核,且将两个条形卷积的特征图进行叠加,加深网络深度的同时也减少了网络参数数量,使甲骨文字特征更加明显。实验结果证明,改进后的网络能够更好地提取甲骨文字的特征,识别率达到了84.45%,比改进前的网络提升了13.74%。(4)甲骨文字识别系统的搭建。以PyQt5作为界面开发工具,在深度学习框架Pytorch基础上通过对甲骨文字特征提取、分类识别等不同环节的相关算法进行整合,把训练好的网络模型作为甲骨文字深度特征提取器,将其加载到Windows系统上做成甲骨文字识别系统,方便用户的使用。