面向内蒙古历史的领域语料库构建

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:jy168300124
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习技术的高速发展,人类在自然语言处理方向的研究不断深入,对于语料库的需求也日益增多。语料库作为一个存放语言材料的数据仓库,是自然语言处理以及计算机语言学的研究基础,为分词任务、实体识别任务以及关系抽取任务等提供了有效的底层数据支持,推动人们对语言的理解和应用。而在内蒙古,该地区有着丰富的历史文化,但许多历史人物、事迹以及民族发展等都是以书籍文献等纸质文本方式进行记载存储,不利于知识文化的传播以及学习。为此,本文基于内蒙古历史,对其进行语料库构建,涉及到三大部分:中文分词、实体识别以及关系分类。面向内蒙古历史的领域语料库构建,能为上层的、与内蒙古历史文化相关的知识图谱、智能问答、推荐系统等提供了原始的数据支持,让人们能够更加快速地学习和了解内蒙古历史,推动了其文化的发展与传播。本文主要研究内容如下:(1)基于深度主动学习构建内蒙古历史领域的中文分词和实体识别语料库。本文把中文分词和实体识别都视为成一个序列标注问题,深度学习模型采用BERT+Bi LSTM+CRF框架,主动学习的样本选择策略使用MNLP(Maximum Normalized Log-Probability)算法。最后成功标注15542条句子,总词数达到388789个的中文分词语料库;实体识别语料库则标注了19种不同类别、共计56140个实体。在这两个语料库的基础之上,本文使用BERT+Bi LSTM+CRF框架分别训练了内蒙古历史领域的中文分词模型M-CWS和实体识别模型M-NER,其中MCWS和M-NER的F1值分别为96.63%和86.57%,能够满足于一般的使用场景需求,同时这两个模型也用于本文原型系统中的展示平台。(2)基于远程监督方法构建关系分类语料库。远程监督的思想在于若实体对共现在一条句子中,则认为该句子能够表达实体对之间的关系,但这种方法提取的语料存在大量的噪音。为此,本文提出一种基于触发词的匹配对齐方法,利用M-CWS分词模型对触发词进行全词匹配,实现对13种单向关系,共计29203条句子的内蒙古历史领域的关系分类语料库构建。在此语料库的基础之上,本文使用BERT+Bi LSTM+Softmax框架训练了一个内蒙古历史领域的关系分类模型MREL,该模型F1值达到88.95%,能够满足于一般的使用场景需求,同时该模型也用于本文原型系统中的展示平台。(3)实现原型系统。本文实现的原型系统包括标注平台和展示平台两个部分。其中,标注平台主要辅助标注人员标注以及语料的存储,如PDF文件转换成TXT文本、相对应语料的标注页面、语料管理页面、语料导出等功能。展示平台则分为图谱展示以及句子识别,图谱展示对内蒙古历史人物关系及相关属性进行可视化展示,便于历史脉络的梳理和整合;句子识别则使用M-CWS、M-NER和M-REL模型来对句子进行中文分词、实体识别以及关系分类。
其他文献
文章主要目的为探讨人才激励机制在公立医院人力资源管理中的具体运用,首先从人才激励机制、人力资源管理、公立医院的基本概述入手,具体分析人才激励机制在公立医院人力资源管理中的具体内容及重要性;在此基础上,结合公立医院人力资源管理中存在的问题,从而分析人才激励机制在其中的运用方案,旨在推动公立医院实现自身高质量发展,希望通过对上述内容予以简单分析,能给其他医疗机构提供一定帮助。
期刊
近年来随着网络的普及,大量社交应用随之出现,得益于其便利性,越来越多的人们将其作为了解世界热点的主要媒介之一。利用社交网络人们可以很快地建立社会关系,并对共同关注的某一社会热点事件进行沟通交流并分享自己的看法,社交网络已经成为人们生活中必不可少的一部分,它是人们现实生活在虚拟世界中的映射,反映了现实生活中人们的生活状态,对其进行研究能够发掘出现实生活中不易察觉的潜在信息,有着很高的研究价值,近年来
学位
本论文,相关前期研究的基础上,主要运用描写法把《穆卡迪玛特·阿勒—阿达布蒙古语词典》名词的语法范畴系统的描写并解析。主要解析研究名词语法范畴之附加成分的呈现形式及使用范围和所表示的意义及功能。《穆卡迪玛特·阿勒—阿达布蒙古语词典》名词的语法范畴中的附加成分呈现形式和使用范围虽在其他论文或者在书籍中提到过,但是本论文更加深入解析并整理出其它论文或书籍中未提到的附加成分或变体。这是本论文的一大特色。本
学位
《大元国史水晶珠》是蒙古族18世纪历史散文之作之一。简称《水晶珠》,由巴林右旗协理三等台吉拉喜彭斯克编撰。拉喜彭斯克从《清乾隆三十九年(1774)开始撰写大元国史水晶珠》,至乾隆四十年(1775)告竣。在《水晶珠》中叙述了蒙古族的渊源解释了“蒙古”一词的含义以及当时蒙古的社会概况。叙述了成吉思可汗的祖先、成吉思可汗到额尔克洪格尔的史实以及成吉思可汗的箴言等。其中有汉文《元史》及《资治通鉴续编》上所
学位
实施公立医院人力资源管理时,制定科学合理的人才激励机制,满足市场发展对高素质人才的需求,提高公立医院的市场竞争力。鉴于此,文章选择公立医院为背景进行研究分析,分析人力资源管理中人才激励机制的作用,总结公立医院实施人才激励机制存在的问题,结合实际情况提出完善公立医院人才激励机制的措施,促进公立医院的健康发展。
期刊
频繁图模式挖掘是数据挖掘中的研究热点,频繁子图挖掘是频繁图模式挖掘的新兴研究方向,在社交网络中发现频繁子图对于理解社会互动、研究疾病的传播有重要的作用,然而在挖掘及发布时又会带来隐私泄露的风险。因此,针对静态场景及动态场景的频繁子图挖掘的隐私问题,提出了以下两个算法:(1)针对静态场景,本文提出了一种更加安全有效的满足差分隐私的深度优先搜索频繁子图挖掘算法DP-g Span。传统方法主要是基于差分
学位
本论文运用媒介经营管理理论与方法,以达拉特旗官办大众媒介为研究对象,对其进行了系统地研究。达拉特旗媒介自1950年在政府所在地展旦召建立广播收音站为开端至此已有72年的发展历史。在不同的历史发展时期,达拉特旗按照党中央关于媒介事业发展的决策部署与新闻宣传思想工作的要求积极建设旗县基层媒介事业,建设起现代化媒介机构,优化和改进经营管理体制,以更好地宣传和服务达拉特旗社会经济、政治、文化的发展。在今天
学位
专利作为知识产权的重要载体,在科技创新中发挥着极其重要的作用。一篇专利的价值实现,能在经济、法律和科技等方面带给专利权人巨大收益。因此如何实现专利的价值,一直是业内外人士所共同思考的问题。为此,我们将专利的价值实现分成了两个方面:专利估值和专利转化。其中专利估值帮助我们筛选和培育高价值专利,而专利转化则帮助我们完成高价值专利的转化。目前,一些自动化的专利价值实现模型从专利估值或专利价值转化的角度进
学位
基于车联网行业以及通信技术的发展,目前涌现了大批人工智能相关的智能应用,如自动驾驶、语音交互、路况预测等,大大提高了人们的驾驶体验,优化了道路的驾驶环境,但这类应用的特点是对计算资源和存储资源要求很高。传统的云计算(Cloud Computing)范式能够通过网络为移动设备提供算力的扩展,但由于车辆与云计算中心通常距离较远,通信延迟较高,计算任务的延迟要求往往无法得到满足。因此出现了车辆边缘计算(
学位
目前,事业单位思想政治工作虽然取得了一定成效,但随着时代的进步与社会的发展,事业单位需要加快思想政治工作改革与创新步伐,改善内部结构,注重思想政治工作的改革与创新,使事业单位发展符合时代需求。在新时代,事业单位需要进一步增强对思想政治工作的引导,分析不同时期存在的问题,并提出相应的解决措施,助推事业单位高质量发展。
期刊