【摘 要】
:
蒙古文命名实体识别作为信息提取的第一步,在基于自然语言执行各种任务方面起着很重要的作用。本文利用深度学习方法开展了命名实体识别任务,主要研究内容如下:1.简单介绍了传统机器学习方法和深度学习方法的概念及结构,并对本文应用的几种网络模型做了进一步说明。之后对蒙古文词法特点及机构名实体特征做了阐述。2.阐述了蒙古文命名实体识别的工作流程及使用的模型架构,并分析了蒙古文机构名的结构及特征。为了快速划分句
论文部分内容阅读
蒙古文命名实体识别作为信息提取的第一步,在基于自然语言执行各种任务方面起着很重要的作用。本文利用深度学习方法开展了命名实体识别任务,主要研究内容如下:1.简单介绍了传统机器学习方法和深度学习方法的概念及结构,并对本文应用的几种网络模型做了进一步说明。之后对蒙古文词法特点及机构名实体特征做了阐述。2.阐述了蒙古文命名实体识别的工作流程及使用的模型架构,并分析了蒙古文机构名的结构及特征。为了快速划分句子中的机构名并判定句子成分,构建了含592万条蒙古文机构名的词典库。在这基础上,本研究根据语料库语言学的理论和方法构建了600万词条的蒙古文新闻语料库,并对其进行了预处理。选取该语料中出现机构名的1万个句子进行了BIEOS标注工作用于实验。3.本文建立了基于新闻领域的BI-LSTM-CRF和BI-LSTM蒙古文机构名命名实体识别模型,并与传统机器学习模型中的CRF模型和HMM模型在相同蒙古文机构名数据集上的实验结果进行比对,证实了深度学习方法在蒙古文命名实体识别任务上的有效性。实验结果中BI-LSTM-CRF模型的识别效果比较好,F1值达到96.88%。通过本项研究得知,BI-LSTM-CRF模型在识别蒙古文机构名时识别效果较好,其F1值为96.88%。实验中构建的蒙古文机构名词典也为后续的研究提供了基础。
其他文献
民歌《韩秀英》是科尔沁叙事民歌中的代表作之一,不仅是因为它优美动听的旋律、诙谐幽默的歌词,更是因为它的艺术价值和历史意义。本文通过研究民歌《韩秀英》的新媒体传播来了解新媒体时代下传统民歌的传播现状。绪论部分,主要叙述了该论文的研究对象、选题原因及意义、研究情况和研究方法。将收集到的关于民歌《韩秀英》的考察研究情况进行了阐述。第一章,全面介绍了民歌《韩秀英》的故事情节、出处和传播简述,重点分析民歌《
《人民网》(蒙文版)于2009年10月1日正式上线,它是《人民网》的一个民族语言版本,主要以传统蒙古文字的形式报道新闻消息。自创立至今,不断为广大受众提供新近发生的新闻消息、新闻评论、各类报道,极大丰富了受众的生活,并在此期间取得了良好的传播效果。本文主要对《人民网》(蒙文版)的报道现状进行了分析探讨。综合运用调查研究法,内容分析法和统计分析法等研究方法,从创办情况和发展历程入手,在充分了解其创建
《牧民刊》是《锡林郭勒日报》旗下专刊,在锡林郭勒盟广为发行。以“牧区、牧业、牧民”为宗旨发行。它是继《牧民特刊》及《新牧民报》的后续产物,其影响并非自《牧民刊》成立之后才存在的,而是承接前者衣钵,接替前者职能。经过多次变革,《牧民刊》的创办始末及未来走向,有着不小的研究空间。通过《牧民刊》我们既能了解到,锡林郭勒盟本地刊物的状态,也能为其他刊物的发展做参照。因此,本文将以《牧民刊》的创刊日2018
《语言与翻译》(蒙古文版)期刊,是由原新疆维吾尔自治区民族语言文字工作委员会与新疆翻译家协会共同主办的社科类学术性省级期刊。该期刊前身为1982年起不定期出刊的《新疆蒙古语文》(内部期刊),1986年1月改名为《语言与翻译》(蒙古文版),并作为省级季刊正式开刊。该期刊于1986年以托忒蒙古文字出版,自1987年下半年起,并用托忒蒙古文和胡都木蒙古文等两种文字出版,一直到1988年第一期期刊才开始用
本文对陈述句声音语料(20位发音人、15个文本句、5次重复)开展句重音的声学实验和听辨实验,探索陈述句重音声学表现的统计学意义和句重音的分布特征。进而考察句重音(普通重音)的声学参数与感知特点之间的互动关系。本文由绪论,陈述句重音的声学分析、听辨实验和总结等四个部分组成。绪论中主要介绍汉语和蒙古语中国内的句重音研究综述、本研究的语料设计、数据库建立等研究准备阶段的工作。第二部分分别对种句法结构的音
人名是人类为区分个体,给每个人的特定名称符号,是群体中区别个体的重要标志。人名作为词汇系统的特殊组成部分,其背后反映的是某一群体的文化、历史、社会意识、价值追求、审美心理等内涵。本文以呼伦贝尔市陈巴尔虎旗为调查点,调查探讨陈巴尔虎旗蒙古族人名的起名习俗、名字中蕴含的文化及人名的时代特征等。全文由绪论、第一章、第二章、第三章、结论和参考文献等六个部分组成。绪论部分说明了选题依据、研究内容和意义、研究
回望历史长河,妇女是人类文明的哺育者、社会公平进步的促进者,妇女事业是人类伟大的事业。社会各项事业的平稳发展,都无不凝结着广大妇女们的博学、智慧和汗水,她们在不同的历史时期,不同的社会角色中发挥着自己的聪慧才智,创造着具有历史性的事业,为推动经济发展和社会进步做出了不可或缺的重大贡献。《内蒙古日报》是中国共产党在全国少数民族地区创办的最早的省级党报,自创刊以来为内蒙古自治区的广大群众及时提供重要的
“电化学”部分知识是高中化学反应原理中的重要内容,包括原电池、电解池以及金属的腐蚀与防护等,电化学知识与生产生活联系越来越紧密,在生产生活中的应用越来越广泛,其内容多、理论复杂、综合性强,是高考热点,同时也是必考知识点。高中生逻辑思维能力发展尚未完全成熟,所以电化学知识也是学生学习的难点。如何在教学过程中提高学习效率,辅助学生自主构建完整的知识网络图,最终融入自身的知识体系,是教育者的一大难题。本
在自然界和人们的生活中,网络是无处不在的。现实生活中,计算机网路、生物网路、社会网络都是比较有代表性的网路。网络,就是可以用图表来表达的任意一种体系。这个图是由一个系统中的所有成员和成员间的某种关系所构成的复杂系统。不管它的规模有多大,均由一个个节点和边所构成。随着复杂网络技术在各个领域的应用,人们把人类语言看作是一个复杂网络系统,即语言复杂网络。语言复杂网络是计量语言学的新分支,它将复杂网络技术
近年来,利用计量语言学方法研究语言特征的成果层出不穷。计量语言学为语言特征研究提供了客观的数据支持,对佐证理论性结论有着重要作用,推动了语言特征计量研究的发展。本研究尝试以《中华人民共和国民法典》(蒙古文版)为基础语料,建立依存树库,从树库提取可计量指标,以真实数据统计分析研究尝试回答以下3个主要问题:(1)蒙古语法律语体的句法结构有哪些特点?(2)蒙古语法律语体中动词、名词、形容词的句法功能有哪