【摘 要】
:
记载西夏文的古籍大多作为珍贵文物收藏在博物馆中,并且古籍大多经历了历史长河的冲刷变得非常脆弱,为了让西夏研究者更好的进行西夏古籍文献研究以及对西夏文古籍的数字化保存,我们应进一步加强文物信息的数字化采集以对其进行合理保护和利用。目前已有很多基于深度学习的端到端的文字识别系统,但在西夏文字的识别研究中,缺少有效的学习方法,导致对于西夏文字识别的准确率不高。因此本文围绕Tesseract-OCR识别引
论文部分内容阅读
记载西夏文的古籍大多作为珍贵文物收藏在博物馆中,并且古籍大多经历了历史长河的冲刷变得非常脆弱,为了让西夏研究者更好的进行西夏古籍文献研究以及对西夏文古籍的数字化保存,我们应进一步加强文物信息的数字化采集以对其进行合理保护和利用。目前已有很多基于深度学习的端到端的文字识别系统,但在西夏文字的识别研究中,缺少有效的学习方法,导致对于西夏文字识别的准确率不高。因此本文围绕Tesseract-OCR识别引擎进行西夏文字端到端识别的研究与实现,但是由于该引擎没有相应的西夏文字字符库,直接上传图像进行识别所得到的识别结果准确率不高。故本文进行了图像预处理以及重新设计选择文字信息检测网络模型对图像进行文本定位和分割,再对该引擎的文字识别模型API的参数进行优化,从而达到提高识别准确率的目的。论文主要工作包括:(1)采集西夏文字数据样本,构建并标注适用检测与识别的数据集。针对目前已有的记载西夏文字古籍样本数据集不太适合端到端文字识别的情况,本文在其收集的西夏文单字样本的基础上又采集了记载西夏文字的文本数据并进行文本行数据集标注,针对本文所提出的西夏文字识别方法对其进行了预处理改进,建立了更适合本文所用的样本数据库。(2)使用改进的图像增强算法对图像进行预处理。针对记载西夏文字文献保存环境复杂导致常常得到的目标图像并不是非常理想的问题,本文进行了基于分数阶微分方程方法的图像增强,为进一步提高文字识别准确率奠定较好基础。(3)改进文本检测网络及使用基于迁移学习的文字分割。针对基于Tesseract-OCR进行西夏文字识别时对倾斜目标定位的不准确、古籍复杂背景带来的识别准确率不高的问题,本文提出了基于YOLOv3文本检测模型改进和基于增加CA注意力机制的AdvancedEAST算法的文本定位以及基于TexRNet的文本分割方法对图像做进一步处理,取得了良好的可视化效果并且在一定程度上提升了文字识别的准确率,有利于本文后续的西夏文字识别研究与实现。(4)优化引擎并通过训练实现西夏文字识别。针对目前对西夏文字端到端识别准确率不高的问题,提出了基于Tesseract-OCR的西夏文字识别的实现,利用了该引擎在文字识别方面非常成熟的训练模型以及较好的识别效果。在前文对图像处理的基础上进一步针对Tesseract源码中API参数进行了优化。(5)设计了一套西夏文字识别系统。针对西夏文研究学者的实际需求,设计并实现了基于Tesseract-OCR的西夏文字识别系统。通过需求分析、功能模块设计、原型实现、功能测试,证明了该系统可以较为便捷的实现西夏文字的数字化识别,以期实现对西夏文字的数字化转换。
其他文献
随着化石能源的持续消耗和全球生态环境的破坏,可再生能源的发展与应用受到了人们的广泛关注。生物质能是一种环境友好、资源丰富的可再生能源,可以转化为各种生物质平台化合物,比如生物质基呋喃类化合物,可以通过特定的催化反应制备出各类高附加值的化学品,促进生物质能源提质。糠醛作为重要的生物质基呋喃类化合物,可以通过催化加氢反应和缩合反应分别制取高附加值的糠醇和糠叉丙酮。通过转移加氢的方式实现糠醛转化为糠醇,
双金属氧化物复合材料是非常有应用前景的非均相催化剂,然而传统的制备工艺很难在原子水平上实现金属比例和分布的精确调控。我们以咪唑-1-乙酸为配体,金属钴和锰为节点,引入适量表面活性剂聚乙二醇(PEG)限制颗粒的生长,采用溶剂热法合成了金属有机框架材料(MOFs),在空气中热解得到了MOFs衍生的钴锰双金属氧化物(标记为IA-Co Mn Ox)。由于咪唑-1-乙酸具有不同的配位原子(O和N),可与具备
2007年,党的十七大报告提出要建设现代产业体系,自此以后,大连市针对现代产业体系的建设开展积极的探索。2017年,党的十九大报告再次提出,要“着力加快建设实体经济、科技创新、现代金融、人力资源协同发展的产业体系”,现代产业体系是现代经济体系的主要内涵和战略重点之一。大连市继续坚定不移地建设现代产业体系,推动各项产业高质量发展。对大连市现代产业体系的建设水平进行评价,进而深入分析大连市在现代产业体
在随机摆放的工件中精确挑选出目标工件并获取其平移、旋转和缩放的信息,对于工业检测中的自动化过程至关重要。提出一种融合全局特征和局部特征的工件图像匹配算法。首先使用Canny算法提取图像边缘轮廓信息,随后使用Hu不变矩进行初步筛选,分割出匹配轮廓并进行分组。结合比值提纯法和对称提纯法提纯特征,使用SURF特征进行精匹配。最后使用RANSAC方法分别求解模板图像中工件和待匹配图像中多个工件的关系矩阵,
整体观照唐赋创作,讽谕是其重要的主题之一。在政治、思想和文艺思潮等多方面的影响下,中晚唐赋家遵循现实主义创作原则,不断充实赋的讽谕内容,丰富并创新赋的讽谕形式,使得讽谕赋成为了中晚唐赋体创作的生力军,其意义价值也得到了学界的普遍认可。本文以中晚唐讽谕赋为主体,主要从创作背景、体式分类、思想内涵和艺术特征四个方面展开研究。第一章探究孕育中晚唐讽谕赋的背景因素,着眼于中晚唐的外部社会环境和赋文学的内部
<正>文化是一个国家发展的根基,新时期要以红色文化为精神动力,革命纪念馆为红色文化传播的载体,弘扬社会主义正能量,加强人们的爱国主义情怀。现主要分析创新档案管理的重要性,并结合工作实际,探讨新时期纪念馆档案管理工作面临的主要问题,从提高对档案管理的重视度、加强信息化档案管理体系的构建、建立健全档案管理规章制度、提升管理人员综合素质等方面对新时期档案管理工作的有效途径与方法展开讨论。
目的 探讨神经生长因子(NGF)经鼻腔给药联合微创清除颅内血肿术对高血压脑出血患者血清铁蛋白(SF)、血管内皮生长因子(VEGF)水平及血管内皮功能的影响。方法 将92例高血压脑出血患者随机分为对照组(n=46)和观察组(n=46)。对照组行微创清除颅内血肿术治疗,观察组在对照组基础上采用NGF经鼻腔给药,比较两组患者治疗前后的SF、 VEGF水平及血管内皮功能。结果 治疗后,两组的SF、 VEG
精神障碍者人数众多,约占我国残疾人口总数的10%,与其他类型的残疾人相比,该群体拥有较高的康复医疗需求。有效的康复服务不仅有利于精神障碍者回归社会,也有助于社会的稳定与和谐。当前自我污名现象在精神障碍者中普遍存在,已成为阻碍康复的顽固性因素。精神障碍者的自我污名经历不仅会降低其希望水平,还可能损害他们家庭功能的正常发挥,并影响其专业心理求助态度。在此背景下,本研究通过方便抽样,对广州市330名正在
在高中教育中,艺术生是一个庞大而特殊的群体。他们既要参加高考,也要参加艺术院校的校考或联考,文化课在艺术生的升学中起到支撑作用,历史作为艺术生的首选科目,其重要性不言而喻。有效的历史教学策略可以提高课堂效率,然而国内外对高中艺术生的历史教学策略研究并不全面,有关于高中艺术生的历史教学策略缺乏针对性的、具体操作层面的研究。因此,文章以开封市高中艺术生的历史教学现状调查为基础,对高中历史可行性的教学策
硫氧还蛋白系统是细胞内氧化还原稳态和信号转导的重要调控系统,与多种疾病发生发展密切相关。硫氧还蛋白还原酶(TXNRD)将生理底物硫氧还蛋白(TXN)还原,随后TXN还原其下游的分子靶标,发挥抗氧化的作用。基于TXNRD重要的生理功能,TXNRD成为癌症治疗中有前途的靶标,大量体内体外研究表明,TXNRD抑制剂在癌症治疗中具有良好的选择性。然而,现阶段TXNRD抑制剂开发有限以及一些小分子药物与TX