法律文书命名实体识别研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:westlink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,国家司法改革不断深化,随着司法机构数字化程度不断提高,法律文本数据信息出现了指数级的急速增长,海量司法文书的高效分析与处理成为亟待解决的问题,相关问题的研究也受到研究者的广泛关注。法律文书的命名实体识别,作为司法人工智能领域的关键性和基础性的工作,在法律问答、刑期预判和司法知识图谱构建等任务中起着重要应用。命名实体识别的研究推动了司法人工智能下游任务的发展,但目前司法命名实体识别的研究还处于起步阶段,存在着实体定义与司法业务结合不紧密、高质量命名实体数据资源少、传统词向量无法解决一词多义、司法嵌套命名实体识别困难等问题。本文基于深度学习方法围绕以上现实问题进行了深入的探究分析,主要的工作内容如下所示:(1)针对中文司法领域传统名实体识别问题,构建了盗窃类案件司法命名实体识别语料集Legal Corpus-Flat,提出一种基于预训练语言模型的法律文书命名实体识别方法。首先利用预训练语言模型动态生成语义向量,然后运用ON-LSTM对语义向量进行序列和层级建模以提取相应的文本特征,最后利用条件随机场模型基于文本特征获取最优标记序列。实验结果表明,模型F1值达到86.09%,相比基线模型提高了7.8%。(2)针对中文司法领域嵌套命名实体识别问题,基于Legal Corpus-Flat构建了司法嵌套命名实体识别语料集Legal Corpus-Nested,提出一种基于片段提取的机器阅读理解的模型,该模型针对性的设计问题模板,利用BERT进行句对编码,以学习到问题模板中蕴含的司法先验,通过两个多分类器,分别提取实体的首尾位置和片段匹配,从而提取出相应的实体,较好的保留了司法文本的业务信息。模型F1值达到83.28%,相比基线模型提高了6.03%。(3)针对改善低资源命名实体识别效果,首先对现今司法领域命名实体识别的定义方案进行了总结归纳,并提出了一种注重司法业务的司法属性命名实体定义方案。构建了可用于迁移学习的司法命名实体语料集Legal Corpus-Transfer,提出一种基于对抗迁移学习用以改善低资源司法命名实体识别性能的方法,实验结果证明,模型能显著提升低资源司法命名实体识别的性能,并且可以通过此方法大幅减少新语料标注成本。通过引入预训练语言模型,有效地提高模型性能,通过对比多个预训练语言模型,Ro BERTawwm取得了最佳效果。
其他文献
计算机辅助几何设计(简称CAGD)的重点研究内容之一是曲线曲面的表示与逼近,CAGD十分重视CAD/CAM的数学理论和几何体的构造,利用数学理论描绘曲线、曲面、零部件、装配件等几何形状间的配合、包含、约束等关系,利用计算机手段对这些几何形状进行分析、调整、优化进而达到对产品设计等预期的目标。由于Bézier曲线具有变差缩减、细分等优良性质和良好的形状控制能力,所以在曲线造型中得到了广泛应用,在CA
近年来,数据驱动型算法逐渐成为了计算机医学影像分析方法的主流。目前的数据驱动算法主要侧重于学习输入数据与输出结果之间的映射关系,未能有效利用高层次的知识信息。在医学影像分析领域,高层次知识包括医生多年总结的诊断经验、人体器官形状知识、解剖特征点位置知识等,这些医学知识对于影像分析具有重要参考价值,却很难通过数据驱动型算法直接学习得到。本论文通过融入医学知识来提升医学影像分析算法的性能,在图像分割、
拓扑优化是结构优化方法的一种,是设计中的重要步骤,其目的是在设计域内为给定量的材料做最佳分布,该工作除了为设计者在概念设计阶段提供参考,还可对现有设计方案做进一步优化。伴随着20世纪以来的自动驾驶以及航空工业的发展,拓扑优化在越来越多的学科有了广泛的应用。拓扑优化的经典方法为SIMP算法,然而该方法的迭代次数多,收敛较慢,且运算复杂。为了解决这些问题,本文受到前人工作的启发,将传统的优化问题看作图
在土工三轴试验的力学性能测试过程中,土样体积变化的测量是非常重要的环节。对于饱和土,土样体积变化的测量技术相对成熟,可利用量筒间接测量流体吸入或排出饱和试样的体积来实现。然而,对于非饱和土,土样内部不可避免地存在空隙、气泡等,传统饱和土体积变化的测量手段已无法准确测量非饱和土的状况。数字图像技术因其测量精度高、不扰动试样,在土样体积变化测量方面具有显著的优势。本论文引入数字图像测量技术开展土样体积
单目深度估计是计算机视觉领域中一项重要而具有挑战性的任务,而且在三维场景重建、无人驾驶、医学图像处理、现代化军事以及智能交通系统中都发挥关键性作用。其目的在于估计出RGB图像中每一像素点的深度信息。基于深度学习的深度估计流程为:首先输入一张二维图像,然后进入卷积神经网络即编码器-解码器结构,最后估计出图像中场景的深度值。在深度估计的过程中,网络模型的精确度往往会受到图像尺度与场景环境的影响。尽管目
使用社交媒体平台是如今大部分人日常生活的一大特色。人们喜欢在互联网上分享自己的感受、趣闻轶事、大事小情,包括自己的身体状况、病情、用药等等。这同时也为自然语言处理工作带来了源源不断的数据资源。健康已经成为全世界最为关注的问题之一,它与我们每一个人都息息相关,并且在生活中扮演越来越重要的角色。将机器学习以及深度学习方法应用于生物医学领域是一种新的发展趋势,并将带来更大的发展。而社交媒体数据是由用户自
为满足我国近年来航空航天事业的发展需要,对大型构件的高效高精加工提出了新的要求,而数字化测量技术是保证加工过程高精、高效、高鲁棒的关键。目前,国内外航空航天业已经对工业生产中的测量技术进行了大量研究,其中视觉测量作为一种非接触式测量方法,具有数据采集快速、高精高效、便于移动、能够三维测量等优点,受到了工业界的充分研究和重视。本文主要研究了基于双目视觉的大型航空航天构件加工过程中局部加工定位点的高精
轻量级区块链继承了传统区块链的优势,对数据的安全性加以保障,同时结合移动边缘计算理念,避免了对计算和存储资源的过度依赖,满足了车联网边缘节点的实际需求。恰当的人工智能算法可根据车辆需求和上报数据的变化,有效地决定和分配不同地区的数据缓存,以避免数据与地域兴趣不匹配,从而间接影响车辆行驶过程中的数据卡顿等问题。本文结合现有的车联网特点和区块链技术,提出了一种轻量级区块链应用于车联网的架构,并引入协同
定制产品设计和生产制造过程中,制造商常邀请用户通过虚拟体验等方式感知产品性能。通过分析用户完成产品体验后发表的用户评价,了解产品设计的不足与缺陷,从而有针对性的完善产品性能,使定制产品更加适应用户需求。情感分析技术是一种基于句法分析和机器学习的文本观点提取与情感判断方法,在文本数据分析处理过程中,它可以基于文本数据近似模拟出文本特征与其情感倾向的关系。与人工分析文本相比,文本情感分析技术能够有效缩
目前,随着信息时代的高速发展和计算机计算能力的不断提高,人机交互的情绪识别是发展最快的研究领域之一。为了提高人机交互的效率,增强计算机识别情绪的能力是十分重要的。当前情绪识别的研究大多集中于人的面部表情、声音、文本等方面,而人体运动的情绪识别任务较少受到关注。然而,日常生活场景较为复杂,可能出现面部表情、语音等失效的情况,这时空间尺度更大的肢体动作情绪识别往往能够发挥更大的作用。现有的情绪识别数据