面向裁判文书的命名实体识别研究

来源 :华东交通大学 | 被引量 : 0次 | 上传用户：yesyouok

【摘要】

：

【作者】

：

邓依依

【机构】

：

华东交通大学

【出处】

：

华东交通大学

【发表日期】

：

2021年01期

【关键词】

：

裁判文书命名实体识别 BiLSTM-CRF模型行业和标的物字词特征

【基金项目】

：

国家重点研发计划项目“假释、暂予监外执行、刑释人员犯罪预防支撑技术与装备研究”中的子项目“研发假释、暂予监外执行、刑释人员犯罪预防平台并开展试点应用”（2018YFC0831106）；

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为审判活动最终产品的裁判文书包含了丰富的信息,通过对其进行命名实体识别,可以为裁判文书知识图谱的构建打下基础。目前,在裁判文书的研究中已开发了一些语料,但这些语料标注的实体并不全面,对于本文所关注的行业和标的物实体目前还没有公开的相关语料。此外,由于没有专门针对裁判文书的分词工具,导致分词的质量不高,从而影响命名实体识别的效果。因此,本文主要研究基于字符的裁判文书命名实体识别,以避免分词错误带来的影响。考虑到词信息的作用,本文提出了两种用于在基于字符的模型中融合词信息的方法。具体地,开展了如下三个方面的研究工作:（1）构建了一个基于民事裁判文书的命名实体识别语料,以下统称为裁判文书语料。主要步骤包括分析裁判文书的结构,对其进行预处理操作,并制定相应的标注规范,形成可用的实验语料。（2）基于字词信息直接融合的模型。该模型在获取字符信息的基础上,简单地拼接了预训练的词向量信息。对于裁判文书这类长序列语料,该模型以单一字符作为输入,选用Bi LSTM作为编码器,然后添加一层注意力机制来计算输入字符在上下文中的表示。同时,为了利用词汇信息,本文使用CBOW模型对大量无标注的裁判文书语料进行训练,获得预训练的词向量。最后,将词向量与字符在上下文中的表示进行拼接,输入CRF层进行标签的预测。（3）基于字词多层次特征融合的模型。一方面,上述字词信息直接融合的模型未能全面的挖掘字词潜在信息。另一方面,相比于单一的嵌入表示,字词多层次特征融合的表示方法往往能获得更多的有效信息。因此,提出了基于字词多层次特征融合的模型,用于在基于字符的模型中充分利用词信息。具体地,模型以字符作为输入,首先使用Bi LSTM和CNN从多个层次全面挖掘字符级特征,然后通过字词编码的方式获取词级特征,最后将两者进行融合组成原始输入序列的最终表示,输入模型进行训练,完成实体识别任务。实验结果表明,基于字词信息直接融合的模型能有效地提升面向裁判文书的命名实体识别的性能。基于字词多层次特征融合方法的性能优于基线方法,且优于基于字词信息直接融合的模型,取得了比较满意的效果。

其他文献

基于多目视觉的乒乓球三维轨迹预测研究

高速移动飞行物体空间轨迹研究目前在体育、军事、航天和工业等领域具有非常重要的研究意义与应用价值,乒乓球具有体积小、飞行速度快、运动模型复杂等特性,非常适合飞行物体轨迹研究实验对象,其轨迹研究近年来受到越来越多的研究者关注。本文以乒乓球为研究对象开展飞行物三维轨迹预测研究,搭建了一种基于结合简单物理运动模型约束和双LSTM神经网络偏差修正的轨迹预测模型的轨迹预测系统,在仿真环境和真实场景中都进行了实

学位

轨迹提取轨迹预测多目视觉LSTM物理模型

BIM环境下基于本体技术的模型合规性自动检查

BIM（Building Information Modeing）是推进我国建筑业信息化发展的最有利的手段,行业在进行运用探索,国家政策也在大力推进。BIM模型是BIM技术应用的基石,但在BIM模型质量控制方面,当前我国尚未有成熟的模型检查软件和控制体系,检查方式基本上是靠人工检查,质量认可还停留在二维图纸审查的阶段。对于这样的检查模式,容易产生漏检和错检的问题,难以快速、精确地对三维模型进行检查

学位

BIMIFC本体合规性检查

基于三维重建的建筑电气自动设计研究

建筑电气设计是建筑工程设计中不可或缺的一部分,建筑电气设计人员通过学习相关的电气知识,人为地读取各类复杂的建筑图纸,然后结合相应国家电气类规范才可完成设计。目前,建筑电气设计主要以设计二维平面图为主,并处于半人工手绘阶段,存在设计效率低、易发生人为错误等弊端。同时,在实际工程中,二维平面设计图呈现信息的方式单一、可读性差,导致施工效率低下。针对上述问题,本文提出一种在实现二维建筑图纸三维可视化的同

学位

建筑电气自动设计三维重建混合粒子群算法

基于虚拟样本生成的铈镨/钕萃取过程组分含量预测

被人们称为“万能之土”的稀土是工业的维生素,全球所有的高科技产品都来源于它。我国的稀土萃取工艺在中科院科学家徐光宪院士的研究成果——串级萃取理论的指导下领跑全球,而萃取过程中组分含量的在线检测仍然停留在“定时取样、离线分析”阶段,部分稀土领域的科技工作者将软测量技术应用于组分含量的快速检测,取得了系列成果。但是,传统的软测量方法需要依靠大量的数据支撑,而复杂的稀土萃取过程却存在数据获取成本高、数据

学位

稀土萃取小样本组分含量预测虚拟样本生成随机配置网络

新常态下公共管理研究

新常态下的公共管理有利于提高公共管理水平,可以为社会经济的高速发展提供帮助。作为系统化工程,公共管理所涉及的内容极为丰富,诸如社会资源、社会问题,只有合理采用公共管理手段,才能够在迎合时代背景的情况下发挥出其应有的作用。文章通过对新常态公共管理进行研究,并结合实际提出个人看法,希望为关注新常态公共管理的人群提供参考。

期刊

新常态公共管理社会发展

基于偏振信息的复杂环境下物体表面三维形貌测量技术研究

条纹投影轮廓测量（FPP）作为非接触式三维（3D）感测/成像的流行技术之一,在过去几十年中得到了快速发展。3D光学传感已经开始成为我们日常生活中不可或缺的一部分,例如智能手机上的3D传感器启用的Face ID等设备。随着FPP在人工智能（AI）,机器学习,智能制造,机器人技术以及在其他领域的不断应用,这类技术将产生更加深远的影响。然而,这种先进的光学系统在工业应用中仍然存在一些基本的问题。在结构光

学位

结构光测量偏振信息系统标定环境光强

基于深度学习的多尺度文本分类算法研究

随着大数据时代的来临,社交媒体中出现了越发丰富的文本信息数据,特别是在微博和贴吧之中。虽然信息化丰富了人们的生活,但带来的却是监管的困难。由于在社交媒体中常常充斥着一些负面的消息和情况,如果不加以管控,则有可能造成负面的影响,但是以人力难以对庞大的文本数据进行管控,因此如何通过计算机算法对文本信息进行有效准确的分类成为当前计算机领域的一项重要研究课题。根据数据集的样本尺度可以将文本分成短文本和长文

学位

文本分类深度学习卷积神经网络自注意力机制循环神经网络

基于PCANet的无参考图像质量评价算法研究

无参考图像质量评价方法（No Reference Image Quality Assessment,NR-IQA）是目前图像质量评价技术的研究热点和将来的发展方向,它在图像处理、机器人技术、机器视觉、医学图像等领域都具有重要的应用价值。随着深度学习的发展,深度神经网络以其强大的建模和分析能力,被越来越多的研究者应用于图像质量评价领域,但在将深度神经网络应用于图像质量评价研究时,深层卷积神经网络模型

学位

无参考图像质量评价主成分分析网络深度学习支持向量机支持向量回归

面向铁道供电监控信息大数据的列压缩方法研究

铁路运输设备是铁路重要的生产性资产,其健康持续稳定的运作是铁路运输生产活动的重要基础,是铁路运输组织活动正常进行的保证。铁路供电监控系统将收集到的线程电流、电压、有功功率、无功功率、功率因素、电力极值等运输设备技术状态数据作为铁路运输设备的高效管控和决策的重要依据。面对不断增长的技术状态数据,现有的监控信息存储方式主要依赖基于磁盘阵列的硬件设备（RAID,redundant array of in

学位

铁道供电监控列式存储大数据内存压缩无损压缩

基于动作捕捉的交互式虚拟现实系统用户行为一致性研究

随着虚拟现实技术的不断发展,人们已经不再满足于简单的视觉体验,而逐渐兴起具有交互功能的虚拟现实系统。目前,存在的具有交互功能的虚拟现实系统大多数是用户和虚拟物体进行交互,或者多个用户在同一场景中进行交互,但是看不到人的身体。这两种交互的方式都会大大降低用户的沉浸感,本文根据目前虚拟现实系统存在的弊端开发了一套基于动作捕捉的交互式虚拟现实系统,该系统用户不仅可以和虚拟物体进行交互,还能与虚拟人进行交

学位

动作捕捉交互式虚拟现实用户行为一致性

面向裁判文书的命名实体识别研究

与本文相关的学术论文