【摘 要】
:
甲骨文是中华文化的基因,是中华民族传统文化的根脉。随着甲骨文研究的深入和信息时代的来临,甲骨文研究进入了信息化时代。目前对甲骨文信息处理时遇到了两个问题,第一个问题是手写甲骨字的输入,但是,目前手写甲骨字的识别率较低,基本无法实际应用;第二个问题是甲骨文文献数字化,甲骨文文献在计算机中大多是以截图和影印的方式展现和存储,不便于检索和使用。这两个问题的核心问题是手写甲骨字的识别问题。目前对规范甲骨文
论文部分内容阅读
甲骨文是中华文化的基因,是中华民族传统文化的根脉。随着甲骨文研究的深入和信息时代的来临,甲骨文研究进入了信息化时代。目前对甲骨文信息处理时遇到了两个问题,第一个问题是手写甲骨字的输入,但是,目前手写甲骨字的识别率较低,基本无法实际应用;第二个问题是甲骨文文献数字化,甲骨文文献在计算机中大多是以截图和影印的方式展现和存储,不便于检索和使用。这两个问题的核心问题是手写甲骨字的识别问题。目前对规范甲骨文体识别的识别率也只有83%,而手写甲骨字的识别难度更大一些。深度学习技术在手写文字识别方面也有了很大的进展。激励着我们采用这些技术来实现手写甲骨字的识别任务。本文研究了一些基于深度卷积神经网络技术的文字识别方法,并对手写甲骨字数据集进行了评估和验证,提高了甲骨文手写输入法的实用性,对甲骨文献数字化进行了一些探索,主要的贡献如下:(1)构建用于深度学习训练和测试的手写甲骨文字数据集。甲骨字与手写汉字不同,甲骨字具有较高的类内相似性,且字体比较复杂。在数据集的制作过程中,根据“殷契文渊-甲骨文大数据平台”中的字库,利用数据采集器对手写甲骨字进行采集。采用了Unicode第六平面编码的编码方式,对采集的手写甲骨字数据集编码。针对本文的手写甲骨字数据集,我们搜集了83245张样本图像,按照字库编码分为3881类字符图像,进行实验研究。(2)利用手写甲骨字数据集,借鉴最近手写汉字深度学习模型的研究思路,对基于卷积神经网络的手写甲骨字识别技术展开了研究。对手写甲骨字识别模型训练之前,将数据集进行预处理操作,尺寸统一调整为96×96×3。在调整经典识别模型与手写汉字识别模型提高手写甲骨字识别准确率的基础上,将全连接、全局平均池化、全局加权平均池化和全局加权输出平均池化作为网络的全连接层进行改进。保证识别精度的同时,减小模型尺寸,提高识别速度。最终,模型的识别准确率为97.67%。(3)设计开发了甲骨文手写输入法。使用Py Qt5作为客户端界面进行开发,对甲骨字进行书写,并通过与识别器交互实现用户手写甲骨字的识别。除此之外,还设置了复制甲骨字、保存用户手写甲骨字图像等功能,在实际工程中得到应用。(4)设计开发了甲骨文文献数字化系统。针对甲骨文文献的特殊性,对甲骨文文献开发了的版面分析、文字分割,文字识别等模块,并在实际工程中得到初步应用。
其他文献
重放攻击是一种利用合法校验信息进行攻击的特殊攻击模式,攻击者通过重发校验信息获取权限。现有的重放攻击防御方案一定程度上保证了通信双方的安全,然而现有的防御方案对于猜解式的重放攻击表现较差。猜解式的重放攻击是指攻击者通过拦截报文对校验信息进行猜解,利用猜解结果组成合法报文执行重放攻击。这种攻击模式为协议安全带来了巨大的挑战,需要新的防御方案去抵御这种特殊的重放攻击。论文在介绍重放攻击防御技术的背景、
为降低成本与推动商业化发展,降低工作温度是目前固体氧化物燃料电池(SOFCs)主要研究方向之一。作为电池极化电阻的主要来源,阴极是决定电池低温性能的关键,开发高性能阴极材料成为研究重点。而目前质子导体基固体氧化物燃料电池(H-SOFCs)领域中常用的一些高性能阴极热膨胀系数普遍高于常用的电解质材料,严重的热失配问题导致电池性能下降、寿命缩短,对H-SOFCs的应用与发展产生极大困扰。针对这一问题,
死亡风险预测指根据病人临床体征监测数据来预测未来一段时间的死亡风险。对于ICU病患,通过死亡风险预测可以有针对性地对病人做出临床诊断,以及合理安排有限的医疗资源。ICU数据存在维度高、类别不平衡、数据缺失等问题,本文提出一种基于深度学习框架的死亡风险预测模型,主要针对ICU脑血管疾病患者进行风险预测,主要内容包括:(1)根据ICU脑血管疾病数据的时序性和高维性,构建了集成模型Multichanne
桥本甲状腺炎(HT)是最常见的自身免疫性甲状腺疾病,也是导致患者甲状腺功能减退(甲减)的最主要因素,甲减会增加患者精神类疾病的发病率,甚至会诱发粘液性水肿昏迷,但有关HT的临床疗法研究目前较少。由于HT患者自身免疫系统紊乱,机体会分泌甲状腺自身抗体,因此甲状腺自身抗体在桥本甲状腺炎的诊断和预后中发挥了重要作用。研究表明,控制营养元素的摄入(如补硒、适碘)对治疗桥本甲状腺炎具有积极意义,可有效降低甲
棉花作为一种经济作物,在生长发育的过程中经常会受到非生物胁迫的威胁。通过外源施加褪黑素(MT)和遗传转化MT合成基因提高MT浓度都可以减轻非生物胁迫的影响。已有研究报道,MT参与植物应对盐胁迫,但MT调控棉花应答盐胁迫的分子机制尚不清楚。在本研究中,以棉花中9807为材料,利用植物生理学、生物信息学、分子生物学和基因组学等手段从内源和外源两个方向研究了褪黑素调控棉花耐盐性的分子功能。主要研究结果如
副车架作为洗扫车的关键部件,主要用于搭载副发动机及其相关配件。洗扫车副车架轻量化设计及其优化对整车的节能减排、性能提升具有重要的工程实用意义和理论意义。本文以洗扫车副车架为研究对象,对副车架进行静力学分析,发现副车架质量冗余问题严重。针对现有结构存在的问题,采用材料替换的方式对原有副车架进行轻量化设计;使用多目标拓扑优化的优化方法得到副车架在综合考虑静态多工况和动态工况下的拓扑结构,以拓扑优化的结
热胀冷缩是日常生活中大多数材料所具备的性质,但其往往会影响材料的使用寿命,带来不必要的损失,为解决这一问题,近零膨胀材料的研究成为功能材料领域人们关注的热点之一。单相近零膨胀材料和复相近零膨胀材料相比在应用中具有一定的优势,单相近零膨胀材料具有更好的抗热震性与机械性能,因此寻找单相近零膨胀材料具有重要意义。Cs2W3O10具有优异的自激发紫外发光性能和光催化性能,对其热膨胀性能进行系统研究,有助于
目的本研究从职业受照人群和体外离体照射细胞实验两个方面,分析电离辐射(ionizing radiation,IR)对人外周血血清和血细胞培养物中IGFBP-3表达水平的影响,结合人群血液学指标和微核试验检测结果,探讨IGFBP-3作为电离辐射职业暴露监测指标的潜力,为其他学者开展放射工作人员生物学健康效应评价和建立分子水平生物辐射剂量计研究提供必要参考。方法随机选取228例放射工作人员(男性122