【摘 要】
:
报纸是新闻媒体的一种手段,具有记录实事,传播信息的作用。作为信息传播的重要载体,报纸的内容应当是真实的、及时的且可靠的。蒙古文历史报纸是少数民族地区用蒙古文记载实事新闻的印刷出版物。经过长时间的馆藏存储,报纸文献的页面出现了褪色、缺失、污损、折叠等不同程度的损坏。为了更好的保存蒙古族文化遗产,蒙古文历史报纸文献的数字化工作正在全面实施。然而,由于蒙古文报纸文字书写的独特性以及样本数据集稀少等问题,
论文部分内容阅读
报纸是新闻媒体的一种手段,具有记录实事,传播信息的作用。作为信息传播的重要载体,报纸的内容应当是真实的、及时的且可靠的。蒙古文历史报纸是少数民族地区用蒙古文记载实事新闻的印刷出版物。经过长时间的馆藏存储,报纸文献的页面出现了褪色、缺失、污损、折叠等不同程度的损坏。为了更好的保存蒙古族文化遗产,蒙古文历史报纸文献的数字化工作正在全面实施。然而,由于蒙古文报纸文字书写的独特性以及样本数据集稀少等问题,使得蒙古文历史报纸文字的识别研究面临着一定的挑战。因此,本文研究并实现了面向历史报纸的蒙古文文字识别系统,其研究工作如下:1.本文构建了蒙古文历史报纸文字识别语料库。本文通过对蒙古文历史报纸文献的扫描图像进行二值化、列切分、单词切分等操作,收集了217348条蒙古文文字识别语料库作为相关实验的训练和测试样本。2.本文提出了基于Transformer编码-解码器结构的蒙古文历史报纸文字识别模型。该文字识别模型先使用残差神经网络提取图像深层特征,随后由Transformer网络进一步处理图像特征序列并循环解码输出预测序列,完成特征序列到输出序列的映射。相比已有的文字识别方法而言,本文提出的识别模型解决了循环神经网络的长序列依赖难题,同时具备了较高的并行计算能力。此外,残差神经网络的使用弥补了Transformer网络缺少的归纳偏置特性,提高了模型泛化能力。实验结果表明,本文提出的识别模型相比CRNN识别方法提高了4.67%的识别准确率,相比基于注意力机制的识别方法提高了6.16%的识别准确率,其测试集上的最高识准确率能达到83.12%,并实现了较快的处理速度。3.本文搭建了面向历史报纸的蒙古文文字识别系统。本文使用python和Django框架搭建了一个基于浏览器/服务器架构的,简单,易操作且可视化的蒙古文历史报纸文字识别系统,为用户提供了一个蒙古文历史报纸图像的展示与识别平台。
其他文献
在全球范围内卵巢癌是影响女性健康的重要疾病。其早期症状不明显,筛查手段有限,诊断困难,治疗晚,预后情况不佳。卵巢透明细胞癌是上皮性卵巢癌的一种,属于恶性肿瘤,早期所占比例较大,5年的生存率较高,但是一旦发展到晚期,相比于卵巢癌其他类型生存率更低。临床上的治疗方案基本是参考卵巢浆液性癌。了解卵巢癌发病机制,能够更好地预测和筛查风险人群,同时识别潜在的病因有助于降低卵巢癌发病率。UBR5(Ubiqui
向日葵列当(Orobanche cumana Wallr.)是一种全寄生植物,主要寄生在向日葵(Helianthus annuus L.)的根部,严重影响向日葵的质量和产量,因此向日葵列当的防治十分重要。四跨膜蛋白(Tetraspanin,TET)广泛存在于哺乳动物、昆虫、真菌及植物中,调控细胞的多种生理过程,在发育和免疫应答中发挥重要作用。植物通过韧皮部运输TET基因特异性标记的外泌体(Exos
天山西部的降雪丰富,伊犁河流域年最大雪深普遍超过60cm,中国科学院天山积雪与雪崩研究站和伊犁的最大雪深分别高达152cm和89cm。因此,天山西部山区风吹雪和雪崩灾害较多,严重影响着当地的交通安全。新疆精(河)-伊(宁)铁路经过的缓坡丘陵区是风吹雪灾害多发区,崇山峻岭区是雪崩灾害多发区。通过对铁路沿线的气象要素进行分析与推算,结果表明,该地区的最大风速平均值14 0m/s,30a一遇的最大风速与
<正>一、教材简析:《树和喜鹊》是人教版小学语文一年级下册的一篇精读课文。这是一篇童话,是著名作家金波的作品(选作课文时有改动)。《树和喜鹊》的故事情节并不曲折,只是通过树和喜鹊在数量上的变化,阐述了友情所带来的快乐。该篇课文具有以下几方面的特点:1.文字的画面感强。全文共6个自然段,每两个自然段讲述一个画面,依次向我们展现了三个画面:一棵树和一只喜鹊孤单地生活着→后来这里有了好多树、好多鸟窝、
目的 分析140例特发性炎症性肌病合并肺间质疾病(Idiopathic inflammatory myopathy associated interstitial lung disease, IIM-ILD)患者中医证候特点。方法 采用回顾性研究方法,选取2016年1月—2019年10月期间首都医科大学附属北京中医医院收治的140例IIM-ILD患者,根据IIM-ILD患者的临床特点,归纳中医证候
<正>摘要 目的 评价定量CT特征(QCT)和基于QCT的机器学习(ML)模型在肺间质性疾病(ILD)分类中的价值,并比较QCT-ML和深度学习(DL)模型的分类效能。方法 回顾性
内蒙古干旱-半干旱草原植被表现为多年生禾草和小半灌木与生物土壤结皮(Biological soil crusts,BSCs)斑块镶嵌分布的格局特征。BSCs是典型草原最重要的地表生物覆盖体,在稳定地表环境,阻止就地起沙以切断沙尘暴沙源,促进土壤微生物及微小动物的繁衍、生存以改善土壤物质转化发挥着重要作用,其存在是该区域土壤和生态系统健康的重要标志之一。近年来,草原区煤矿的露天开采引起的粉尘、重金属
<正>慢性阻塞性肺疾病患者存在较为严重的呼吸气道受限情况。肺间质纤维化是慢性阻塞性肺疾病较为常见的并发症,是指患者的肺部组织受到损伤,出现呼吸衰竭等表现,严重者可导致患者死亡[1]。本院对所选慢性阻塞性肺疾病合并肺间质纤维化患者开展罗红霉素联合N-乙酰半胱氨酸治疗,并取得满意效果,现将结果报告如下。1资料与方法
异常球菌S9(Deinococcus sp.S9)是一种红色嗜热细菌,对辐射、温度和重金属具有较强抗性,同时具有较高的DNA损伤修复率,因为该细菌基因组包含DNA修复和抗辐射的基因,例如rec A、rec N、rec F和rec R。本文利用分子生物学和生物信息学方法,研究了Deinococcus sp.S9源RecA和RecN蛋白的氨基酸序列、表达、纯化及活性,为RecA和RecN蛋白的功能以及
甜瓜是一种重要的园艺类瓜果作物,在全世界被广泛栽培。因其营养丰富、口感极佳,深受消费者喜爱,故研究甜瓜果实成熟具有重要意义。目前有关脱落酸受体参与果实成熟的研究主要集中在番茄和草莓,其它肉质果实的相关研究较少。本文以甜瓜品种河套蜜瓜为研究材料,探究了脱落酸(ABA)受体基因CmPYL4和CmPYR1基因在甜瓜果实成熟过程中的作用,取得的主要结果如下:(1)对甜瓜脱落酸受体基因家族成员进行了鉴定,得