基于深度学习的司法领域中文命名实体识别研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:shidai19860115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
司法领域的中文命名实体识别是对法律文书中的各类实体进行准确地识别,是人工智能领域后续应用的基础工作。由于司法标注语料资源的严重匮乏以及中文文本独特的行文特点限制,国内对于此方面的研究相对较少。本文对法律文书的行文特点进行分析,并结合深度学习对司法领域的中文命名实体识别任务展开研究。主要完成工作如下:(1)针对司法领域公开标注语料缺失的问题,人工构建司法标注语料。首先从中国裁判文书网和“法研杯”挑战赛公开发布的语料中获取数据,并用自动化技术对这些数据进行清洗、脱敏处理。然后根据处理后的案例文书语料进行行文特点分析,从中设计合理的法律标注规范。最后使用数据增强的方式,扩充训练语料,最终生成了用于本文后续研究的中文实体标注语料集。(2)针对司法领域的实体类别丰富且构造复杂,常用的命名实体识别方法不能很好地识别特定领域的实体问题,提出基于自注意力机制的IDCNN的法律文书命名实体识别。首先应用Bi GRU网络自动学习文本语义信息,解决长序列由于距离依赖而产生的实体歧义问题。然后引入IDCNN网络提取其关键特征,捕获底层序列中更细粒度的实体语义信息。最后添加自注意力机制解析字符之间的联系,融合CRF模型计算最优标签序列。实验表明,本文所提方法有效地辨别法律文书中的细粒度实体,提高了命名实体识别在司法领域的效果。(3)由于法律文书中出现较多的少数民族译名与常规汉语人名在结构和词数上存在着很大的差异,针对人名实体识别不准确的问题,提出基于双向编码模型的法律文书人名识别。通过引入BERT预训练语言模型对人名实体进行识别,不依赖领域知识和人工特征,增强了模型的上下文语义特征提取能力。实验表明,该方法提高了少数民族译名识别任务的效果,实现了端到端的命名实体识别。上述研究工作对于司法领域的中文命名实体识别提供了新的研究思路,为后续的自然语言处理应用具有重要的参考价值,并推动了智慧法院的建设,具有实用性。
其他文献
金属粉末床电子束增材制造技术要满足大尺寸金属零件的成形要求,需要扩大电子束的偏转角度,从而会加大电子束像散,常规两相绕组偏转扫描装置内部磁场的非均匀性会加大附加像散,附加散焦过大会超过偏扫扫描系统的聚焦校正能力,因而像散是制约电子束大广角扫描的主要因素。因此,提高偏转扫描装置内部磁场均匀性,有利于降低像散,提高电子束的扫描范围和大尺寸成形精度。本文首先总结了国内外电子束选区熔化技术与设备的研究现状
微震监测技术在建筑物或工程项目的安全监测评估、矿山生产活动、页岩气或石油开采中破裂位置监测、水库诱发地震监测等诸多方面有着非常重要的作用。一般是在待监测区域布置一定数量的微震数据采集节点,采集节点将采集到的数据通过微震数据传输系统传输到微震监测中心的主机服务器上,进行数据解释及可视化处理。针对不同的应用环境使用不同的数据传输方式,在矿下一般采用光纤或电缆的传输方式,在视野开阔,沟壑纵深的地方,譬如
图像超分辨率是计算机视觉和图像处理领域一个非常重要的研究问题,由于现实环境或硬件设备的影响而造成了图像的分辨率过低,导致人们无法从图像上获得更进一步的细节信息,而图像超分辨率重建技术可以通过借助原始低分辨率图像重建成细节更丰富、清晰的高分辨率图像。随着深度学习在图像超分辨率重建工作中的发展,图像超分辨率重建的效果越来越好。本文主要针对现有的卷积神经网络超分辨率重建算法在泛化和网络特征复用等方面存在
目标跟踪是当前机器视觉领域内研究和应用的热点,国内外学者致力于提升跟踪算法的准确度和鲁棒性。如今,随着无人机在生产生活中的广泛应用,在无人机平台上实现计算机视觉应用已经成为了一种发展趋势。本文设计了一种伪孪生网络框架,该框架包含一个目标跟踪分支和一个模板库分支,分别执行目标跟踪任务和模板存储更新任务。目标跟踪分支是基于核密度估计改进的算法完成目标跟踪任务,该分支算法能解决无人机目标跟踪过程中的尺度
随着智能设备的普及以及科技的迅猛发展,传统的身份验证方式,如ID卡、密码、签名等已经不能满足人们对数据安全以及信息保护的要求。目前大多数的生物特征系统是将用户的特征信息直接存储或进行用户身份的认证,很容易遭到攻击,从而导致用户信息的泄露。因此,构造一种安全可靠的生物特征识别方案是人们关注的热点问题。其中构建一个安全的数据模板及评分标准成为关键。与其他生物特征相比,声纹识别具有无接触、信息量大、成本
随着我国经济的快速发展,汽车总量急剧增加,原有的交通监管系统相对滞后。如何建设一套适合新形势的、完善的、智能和精确的交通监管系统,成了亟待解决的问题。交通监管系统综合应用了各种重要的技术,其中车辆目标检测是非常关键的一项。因此,车辆目标检测成了近年来的研究热点,受到图像处理与识别、人工智能等相关领域学者的广泛关注。目前主要有两种车辆目标检测方法。第一种方法是使用人工提取特征结合机器学习分类来检测车
BOC调制技术作为一种新型调制方式在全球卫星导航系统中得到广泛应用,其频谱分裂特性和窄相关峰特性能够避免与其他信号频谱混叠,增强抗多径能力及伪码跟踪精度,在有限的频带资源条件下很好的解决了GPS、伽利略、格洛纳斯以及北斗等卫星导航系统的兼容共存问题。然而BOC信号的自相关函数相比于传统BPSK信号具有多个副峰,导致GNSS接收机在接收端进行捕获跟踪处理时易捕获到其他旁峰引起模糊问题。本课题正是针对
5G时代的来临,电子设备的功耗和频率逐渐上升,导致其发热量急剧上升,这给电子器件热稳定性带来了极大挑战。因此,电子设备中热界面材料的作用日益突出,电子产品在设计时会加入高性能热界面材料来加快电子产品的散热延长其使用寿命。传统的热界面材料一般由聚合物和导热填料组成,常见的导热填料有金属纳米颗粒、陶瓷材料、碳纳米材料等。碳材料单元具有优异的力学和导热特性,通过结构优化获得石墨衍生物,降低填料维度可以减
信息抽取是使用自然语言处理技术解决知识图谱构建、知识补全、问答系统等问题的关键一环。随着深度学习技术的高速发展,信息抽取技术也由人工构建特征转为使用深度学习来对句子文本进行表征。根据语料信息,关系抽取任务可分为多元关系抽取和二元关系抽取。多元关系抽取需要识别句子中的多个实体及关系,二元关系抽取任务则需要对文本蕴含的关系信息进行更精确的识别。针对多元关系抽取任务和二元关系抽取任务,提出了相应的解决方
扫描电子显微镜(SEM)是观测和表征微纳米尺寸,研究材料表面形貌的主要应用仪器。在利用扫描电子显微镜进行样品的原位高温拉伸试验时,由于受到高温样品及加热台所发射的热电子的影响,扫描电子显微镜的扫描图像会出现因热电子的周期性激发而产生的亮白色条纹。当温度足够高时,扫描图像会因热电子的干扰而呈现出完全的亮白色。为了解决扫描电子显微镜在图像采集时的干扰问题,获得清晰的原位扫描图像,对扫描电子显微镜的图像