论文部分内容阅读
文字是民族文化的灵魂,是知识传承的重要载体,它在人们的日常交流中扮演着重要的角色,因此关于文字处理的研究也是计算机研究领域中重要的组成部分。光学字符的检测与识别具有广阔的应用前景,其中包括自然场景下的文本检测与识别、票据的主要信息提取、古籍中的字符识别等。目前,有很多针对古籍文本检测和识别的相关研究,在国外,主要是针对古拉丁文手稿。在我国,也有很多针对古代汉字佛经,维吾尔文古籍、蒙古文古籍的研究。中国文明源远流长,民族众多,除了以上提到的,还有很多民族的古籍数字化工作尚未开展。彝族作为我国的第六大少数民族,拥有着自身独特的文化,彝文的使用人数超过百万,而彝文古籍的数字化工作还相对滞后。因此,针对彝文古籍的字符检测和识别对彝文古籍数字化工作的推进具有重要的意义。本文针对贵州地区的古彝文字,构建了一个可用于彝文古籍字符识别的古彝文手写体样本库,提出了一种彝文古籍中字符检测和识别的方法,设计并实现了彝文古籍的自动识别系统。本文的具体工作如下:(1)参照《简明彝汉字典》(贵州本)和《通用彝文字典》整理出了3786个古彝文常用字符,设计出相应的传统彝文字体。将字体文件中的字符生成采样表,通过背景填充、倾斜矫正、区域提取等技术自动提取并标注相应的古彝文手写体样本。通过腐蚀、膨胀、仿射变换、旋转等形态学变换进行样本增量,实现了样本库的自动扩充。并参照MNIST数据集设计了数据集的存储格式。(2)针对版面结构比较简单,噪声较少的彝文经书,采用连通区域分析及回归式字切分的方法取得了较好的检测效果。针对版面结构复杂、排版缺乏规范、存在图文混排等情况的彝文古籍,提出一种基于最大极值稳定区域(MSER)和卷积神经网络(CNN)的彝文古籍字符检测方法。首先对彝文古籍扫描图片用非局部均值滤波进行了预处理,然后采用一种改进的局部自适应二值化方法得到二值图像,实现对图像的前景和背景的分割;再采用基于启发式规则的方法对非文本区域进行去除,从而得到文本区域;最后采用MSER和CNN相结合的方法对古籍中的单个字符进行检测。实验结果表明,该方法对古籍中文本和非文本区域进行了有效的分离,并在单字符检测实验中取得了较高的准确率和召回率,能有效地解决古籍文献识别中的字符检测问题。(3)为了更好的训练古彝文单字符识别模型,本文提出了一种半自动化生成样本的方法,扩充了样本量。通过分析卷积层层数、卷积核个数、学习速率等超参数对卷积神经网络性能的影响,提出一种基于inception结构的卷积神经网络结构,并采用基于余弦相似度的卷积代替传统的卷积,实验证明,本文最终确定的识别模型能够有效地对光照不均的样本进行特征提取,具有较强的鲁棒性,对构建的古彝文手写体字符集达到了98.62%的识别准确率。(4)设计并实现了彝文古籍自动识别系统,将检测和识别模型进行封装,系统可以对所选择的彝文古籍图像中的任意区域的字符进行自动识别并在前台输出。