论文部分内容阅读
用自然语言处理(Natural Language Processing,NLP)技术分析法律文本,能够为法律工作者提供有效的法律依据,从而辅助法律决策和立法。因此,如何利用NLP技术有效地处理法律文本已经成为一个重要的研究课题。命名实体识别是自然语言处理中最重要的任务之一,然而,法律命名实体往往比普通命名实体拥有更多的嵌套层次,对法律类文本的命名实体识别难度相对较大。针对此背景,本论文提出了一种基于隐式马尔科夫模型(Hidden Markov Model,HMM)的法律文本命名实体识别(Named Entity Recognition,NER)模型,用于中文法律文本的命名实体识别和实体关系抽取。本文首先调查研究了国内外中文NER技术的发展现状、中文分词技术研究现状、中文信息抽取技术研究现状、以及法律文本分析模型的研究现状,之后介绍了HMM模型的假设和构建过程,并叙述了HMM模型的建模、训练与求解过程。随后,本文提出了一个基于隐式马尔科夫的法律命名实体识别模型。该模型使用多个HMM模型串联对文本进行由浅至深层次的实体识别,先使用N元模型对语句进行分词,低层HMM模型的输出作为高层HMM模型的输入,并利用搜索引擎识别并消解同义命名实体,从而完成针对法律文本的命名实体识别过程。之后,本文使用公开的数据集和法律文本数据集对提出的模型进行测试,并与目前NER效果最好的三个模型进行对比实验,本文提出的模型在实验中对人名的识别F-1值达到了90%,地理名和机构名结果F-1值也均高于其他三种模型,证明本文提出的模型有更好的命名实体识别效果。其次,在基于隐式马尔科夫的法律命名实体识别模型的基础上,本文又设计和开发了法律文本分析平台,该平台能够完成信息检索、实体关系知识图谱绘制等文本处理功能,为文本分析研究者和法律工作者提供了便利的文本分析工具。最后,本文对开发的法律文本分析平台进行系统测试,测试结果同样证明了基于隐式马尔科夫的法律命名实体识别模型能够有效地完成针对法律文本的NER任务。