面向中文法律文本的命名实体识别研究

被引量 : 19次 | 上传用户:lihan5200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能技术在司法领域中的应用受到了研究者的广泛关注和各方重视,特别是对海量的法律文书进行智能分析和处理已成为司法人工智能研究的重要内容。其中,对法律文本中命名实体的准确识别是对各种法律文档进一步进行句法、语义等分析与理解处理的重要基础。然而,目前这方面的研究工作还较少有相关的文献报告。因此,本文基于深度学习方法对面向中文法律文本的命名实体识别方法开展了试验性的研究,主要工作有以下几点:(1)开发一个由法律案例文本构成的法律命名实体标注数据集。该部分的工作内容主要包括分析法律案例文本的特点、设计合适的标注规范、制作高效的标注辅助工具。(2)研究基于字符级神经网络的法律命名实体识别方法。该方法是本文的基线系统,主要采用LSTM-CRF模型将中文命名实体识别任务转变为序列化标注问题,将字符作为处理的基本单位,以双向长短期记忆模型获取上下文特征,然后利用条件随机场模型为每个字符分配类别标记,识别出实体词。(3)研究基于片段级神经网络的法律命名实体识别方法。中文文本中没有明显的词分界符,因而中文命名实体识别任务可以分为分词和实体识别两个子任务,显然,对片段进行标记分配比对字符进行标记分配更为合理。本文提出了基于GCNN-LSTM模型的片段级法律命名实体识别方法,将门限组合神经网络模型和长短期记忆模型进行结合,并基于集束搜索思想同时完成片段切分和实体标注两个任务。(4)研究基于两种神经网络命名实体识别模型的组合方法。将字符级神经网络命名实体识别方法与片段级神经网络命名实体识别方法进行结合,在为片段整体分配标记时引入字符标注模型,同时考虑片段特征和组成该片段的字符特征。实验结果表明,相较于字符级神经网络命名实体识别方法,片段级神经网络命名实体识别方法具有较好的性能,且组合方法得到了比前两者较优的性能。
其他文献
综述了蚕蛹虫草人工栽培的相关技术研究,提出在蚕蛹虫草人工栽培中存在的问题,为蚕蛹虫草大规模栽培提供参考。
本文对湖州市织里镇镇区现状交通网络、用地布局和人口分布等进行分析,利用GIS软件构建交通网络,以道路密度与面积率为主要指标,通过叠加分析、核密度分析、可达性分析等空间
"一种水稻育种方法"已取得国家发明专利,专利号:ZL 2011 1 0124792.X,中华人民共和国国家知识产权局授权公告日:2013年8月21日。其核心内容是在水稻选种圃、鉴定圃和品系比较试验
玩具在儿童成长过程中起着举足轻重的作用。面对我国玩具出口频频遭遇国外召回通报的现状,消费者对国内销售的玩具质量安全状况也表示担忧,本文通过对国内外召回通报、标准比
2015年11月,受中华人民共和国驻泰王国大使馆的选派,昆明学院艺术团赴泰国参加了"庆祝中泰建交40周年""2015年孔敬国际丝绸节"演出。代表团为泰国观众呈现的融合了东西方音乐元素
<正>今年召开的"第十二届中国建筑装饰百强企业峰会"和"中国建筑装饰三十年纪念大会"都把"创新"列为重要议题之一,可见变革升级已经成为建筑装饰行业的共识,正如中国建筑装饰
基于开放创新理论,研究分析了知识搜索宽度和知识搜索深度对突破式创新的影响,并探讨了模块创新策略和架构创新策略的调节作用。基于206家中国企业数据检验发现,尽管搜索宽度
阐述了SBR装置的基本构成,进而对比出SBBR装置曝气原理。提出了水质状况和测试方法,明确了研究内容和方法。最后做出曝气量对COD去除影响。
党的十九大以来中国特色社会主义和中国梦越来越深入人心,国家文化软实力和中华文化影响力不断加深。本文从认识基础、功能定位、发展思路和目标方位四个方面梳理了改革开放四
本文从国外生态城市建设的实践出发,总结了国外生态城市建设的经验;系统地分析了我国生态城市发展和建设的必要性和存在的优势条件及不利因素;指出生态城市是中国城市可持续