论文部分内容阅读
近年来,人工智能技术在司法领域中的应用受到了研究者的广泛关注和各方重视,特别是对海量的法律文书进行智能分析和处理已成为司法人工智能研究的重要内容。其中,对法律文本中命名实体的准确识别是对各种法律文档进一步进行句法、语义等分析与理解处理的重要基础。然而,目前这方面的研究工作还较少有相关的文献报告。因此,本文基于深度学习方法对面向中文法律文本的命名实体识别方法开展了试验性的研究,主要工作有以下几点:(1)开发一个由法律案例文本构成的法律命名实体标注数据集。该部分的工作内容主要包括分析法律案例文本的特点、设计合适的标注规范、制作高效的标注辅助工具。(2)研究基于字符级神经网络的法律命名实体识别方法。该方法是本文的基线系统,主要采用LSTM-CRF模型将中文命名实体识别任务转变为序列化标注问题,将字符作为处理的基本单位,以双向长短期记忆模型获取上下文特征,然后利用条件随机场模型为每个字符分配类别标记,识别出实体词。(3)研究基于片段级神经网络的法律命名实体识别方法。中文文本中没有明显的词分界符,因而中文命名实体识别任务可以分为分词和实体识别两个子任务,显然,对片段进行标记分配比对字符进行标记分配更为合理。本文提出了基于GCNN-LSTM模型的片段级法律命名实体识别方法,将门限组合神经网络模型和长短期记忆模型进行结合,并基于集束搜索思想同时完成片段切分和实体标注两个任务。(4)研究基于两种神经网络命名实体识别模型的组合方法。将字符级神经网络命名实体识别方法与片段级神经网络命名实体识别方法进行结合,在为片段整体分配标记时引入字符标注模型,同时考虑片段特征和组成该片段的字符特征。实验结果表明,相较于字符级神经网络命名实体识别方法,片段级神经网络命名实体识别方法具有较好的性能,且组合方法得到了比前两者较优的性能。