基于隐式马尔科夫模型的法律命名实体识别模型的设计与应用

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:bat_wing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用自然语言处理(Natural Language Processing,NLP)技术分析法律文本,能够为法律工作者提供有效的法律依据,从而辅助法律决策和立法。因此,如何利用NLP技术有效地处理法律文本已经成为一个重要的研究课题。命名实体识别是自然语言处理中最重要的任务之一,然而,法律命名实体往往比普通命名实体拥有更多的嵌套层次,对法律类文本的命名实体识别难度相对较大。针对此背景,本论文提出了一种基于隐式马尔科夫模型(Hidden Markov Model,HMM)的法律文本命名实体识别(Named Entity Recognition,NER)模型,用于中文法律文本的命名实体识别和实体关系抽取。本文首先调查研究了国内外中文NER技术的发展现状、中文分词技术研究现状、中文信息抽取技术研究现状、以及法律文本分析模型的研究现状,之后介绍了HMM模型的假设和构建过程,并叙述了HMM模型的建模、训练与求解过程。随后,本文提出了一个基于隐式马尔科夫的法律命名实体识别模型。该模型使用多个HMM模型串联对文本进行由浅至深层次的实体识别,先使用N元模型对语句进行分词,低层HMM模型的输出作为高层HMM模型的输入,并利用搜索引擎识别并消解同义命名实体,从而完成针对法律文本的命名实体识别过程。之后,本文使用公开的数据集和法律文本数据集对提出的模型进行测试,并与目前NER效果最好的三个模型进行对比实验,本文提出的模型在实验中对人名的识别F-1值达到了90%,地理名和机构名结果F-1值也均高于其他三种模型,证明本文提出的模型有更好的命名实体识别效果。其次,在基于隐式马尔科夫的法律命名实体识别模型的基础上,本文又设计和开发了法律文本分析平台,该平台能够完成信息检索、实体关系知识图谱绘制等文本处理功能,为文本分析研究者和法律工作者提供了便利的文本分析工具。最后,本文对开发的法律文本分析平台进行系统测试,测试结果同样证明了基于隐式马尔科夫的法律命名实体识别模型能够有效地完成针对法律文本的NER任务。
其他文献
介绍了几何图案的定义、美学特征以及发展历史.从几何图案的构成形态上研究其对服饰设计的重要美学意义。
修改后的刑事诉讼法新增了技术侦查措施,这标志着隐匿身份侦查措施有了法律依据。对于隐匿身份侦查活动中的有悖"诚信"而具有典型"欺骗"性质的问题自然成为学术界关注的焦点
<正> 众所周知,数学应用题的教学是一个难点,尽管教师和学生在这上面所花费的精力不少,但收效甚微。那么学生学习数学应用题的障碍到底表现在哪些方面呢?在此,笔者试从以下几
我国作为农业大国,农业经济在整个经济体系中的重要性不言而喻的。近年来,电子商务的兴起和发展,对农业经济产生了巨大的促进和推动作用。但是在实际应用当中,电子商务没有充
对某再生水厂两级生物滤池脱氮工艺的甲醇投加量进行优化,在2年的实际监测数据基础上,采用线性分析拟合得到甲醇投加量与进/出水总氮质量浓度、水处理量、日均温度等因素的相
目前燃气轮机直驱MW级高功率密度永磁发电机受到的关注日益增加,其在舰船综合电力系统等小型分布式能源领域拥有巨大的发展前景。以一台MW级,额定转速5 000 r/min的高功率密
诱惑侦查教唆是一种特殊的教唆形态。它在教唆行为主体、教唆者的主观心理以及教唆者对被教唆者实施犯罪行为所可能产生结果的认知方面均与普通教唆、陷害教唆不同。对诱惑侦
<正> 1 人参流浸膏治疗溃疡病:每次10—20滴(10ml),每日2—3次,20日一疗程。适应证:胃酸缺乏型。观察102例,其中84例服一疗程胃痛消失,食欲增加,胃液分泌增多,酸度增高,排便
该文提出了一类新颖结构的平面电动机,这类电动机采用开关磁阻电动机的工作原理,结构简单、适用性强,可产生直接驱动的平面运动;在对平面电动机特性分析的基础上,进行了速度
领导干部经济责任审计无论是从世界范围来看还是从我国来看,都是比较新的课题。本文对目前党中央、国务院关于地方党政领导干部经济职责的文件规定进行了归纳综述,据此总结和