【摘 要】
:
裁判文书数据的公开和自然语言处理技术的快速发展加快了司法智能化的脚步。法律文书命名实体识别作为司法智能化的基础任务,是从法律文本中识别出法律相关的实体信息,可为法律文书智能处理系统的上层模块提供文书中的结构化数据和关键信息。本文主要对法律文书数据集展开研究,使用深度学习方式构建实体识别神经网络模型。本文首先从通用的中文命名实体识别数据集出发,研究了利用预训练语言模型BERT加入到传统模型结构中构建
论文部分内容阅读
裁判文书数据的公开和自然语言处理技术的快速发展加快了司法智能化的脚步。法律文书命名实体识别作为司法智能化的基础任务,是从法律文本中识别出法律相关的实体信息,可为法律文书智能处理系统的上层模块提供文书中的结构化数据和关键信息。本文主要对法律文书数据集展开研究,使用深度学习方式构建实体识别神经网络模型。本文首先从通用的中文命名实体识别数据集出发,研究了利用预训练语言模型BERT加入到传统模型结构中构建实体识别模型,并验证该模型对于命名实体识别任务的提升效果。该模型使用BERT生成具有上下文依赖的词向量作为Bi LSTM的输入,克服了使用预训练词向量语义不丰富和一词一义的缺点。其次,构建了基于自注意力和堆叠Bi LSTM的命名实体识别模型。该模型将第一层Bi LSTM特征表示和自注意力的特征表示进行两种不同方式的融合,达到融合短距离依赖信息和全局依赖信息的目的,使模型的语义特征表示更加丰富。为了缓解自注意力无序计算带来的影响,本文增加了第二层Bi LSTM增强自注意力特征向量中的顺序特征,加强了整体模型的拟合能力。实验数据集采用德语法律文书数据集,并且构建多个对比模型,结果表明本文模型取得了较好结果。最后,在中文法律文书上开展研究,考虑到公开的中文法律文书数据集比较缺乏,本文手工标注了中文法律文书命名实体识别数据集,共计25430条句子,47442个实体,包含八种命名实体,分别为人名、地名、机构名、法院名、案号、法律文献名、刑名和罪名。并将本文构建的基于自注意力和堆叠Bi LSTM的命名实体识别模型应用到该中文数据集上,对比实验结果显示本文所提模型对中文法律文书的命名实体识别依然有效,说明该模型具有一定的泛化能力。为了能够直观的展示命名实体识别结果,本文使用Django框架搭建了WEB可视化系统,该系统从前端界面接收文书内容,并进行预处理和实体识别处理操作,最终将识别结果展示在前端界面。
其他文献
随着互联网与物联网的深度融合与发展,智能可穿戴设备的创新与发展进入了新的阶段,其中智能手表以轻量可穿戴、轻巧便携、相对独立性强的特点,掀起了智能可穿戴设备的新浪潮。智能手表屏幕小,操作难度大,使用场景碎片化,小屏幕手表的交互体验并不十分友好,用户常因失去耐心而放弃手表功能的使用。因此,如何提升小屏幕手表的交互操作体验,提高智能手表的操作效率,从而进一步提升人类生产与生活工效,成为智能手表设计中急需
近年来,随着互联网行业的飞速发展,其产生的高新技术也与金融功能逐渐融合。金融+科技的模式虽发展势头大、优势明显,但也暴露出个人房屋抵押贷款过程中专业门槛高、费时费效等问题,加之普通居民金融素养低,个人房屋抵押贷款产品中用户体验的高效性和便捷性显得格外重要。本优化项目源于笔者在湖南大学设计艺术学院读研阶段,在微众银行下的银行用户体验联合实验室实习期间,参与的乐业贷小程序优化改版项目。整个项目从前期研
电磁脉冲粉末压实技术是通过将电能转化为机械能,再将机械能转化为压实粉末的变形能的技术,适用于制造高致密度材料的粉末压实技术,具有效率高,冲击力强的特点。铜钛合金的优势在于强度高、硬度高、弹性好,以及良好的耐热性、耐疲劳性,耐腐蚀性和高温应力抗阻性能,广泛应用于电子器件,包括载流簧片、插接件、继电器触点等。本文通过电磁脉冲粉末压实技术对铜钛合金从合金粉末的制备、压制、烧结等过程中不同工艺参数对试样的
在国家政策改革、移动医疗发展以及人们生活水平提高的大背景下,人们越来越重视各个生命阶段的身体健康问题,这对孕期健康管理的体验设计也提出了更高的要求。本研究目的是探讨基于拟人化设计手段构建用户移情体验对妊娠期糖尿病用户使用血糖饮食管理移动应用的影响,在帮助妊娠期糖尿病用户提高自我管理的主动性以及培养用户长期自我管理行为方面有重要意义。研究通过文献调研的方式梳理了移情理论的起源和发展以及移情发生作用的
侗锦织造技艺是我国国家级非物质文化遗产之一,侗锦作为一种特殊的文化载体,其呈现图案具有很高的艺术价值,制作成因也蕴含了悠久的历史脉络与丰富的人文信息,具有极高的文化价值和传承价值。本文目的是在生活、市场需求的变迁下,不影响传统侗锦保护生产的同时,通过机器纺织生产方式的介入,设计出面向大众的侗锦文旅产品。文章将围绕以下几点展开设计研究:(1)面对当前社会快速发展,如何通过设计创新吸引更多的年轻人对侗
负荷预测是电力系统中的重要工作内容,合理的负荷预测能够帮助电网部门制定有效的发配电计划。短期负荷预测因其随机性强、预测难度大,已成为负荷预测难点与重点。开展精准的短期负荷研究,不仅能够提高电力系统的运转效率,更有利于应对用电情况的突然变化,降低运维成本。随着用电信息采集系统功能的不断拓展与完善,该系统具备采集多种数据能力,可为短期负荷预测提供更丰富的数据。因此,依托用电信息采集系统构建短期负荷预测
随着“大屏时代”的快速发展,主机游戏玩家通常会选择画质表现优异的电视产品作为显示设备,以画质为主卖点的游戏电视成为新需求下的热点产品。因开发人员对用户在游戏电视上的画质需求定位不精准,最终导致产品的画质表现与用户真实需求存在差异性,所以需通过深度画质公测的方式挖掘用户真正的需求,解决差异性的问题。TCL使用可深层地收集画质需求以及对体验问题响应快的用户参与的公测方式,在精准对齐用户需求的前提下,在
在大数据的时代背景下,通过高新科技等手段推进我国非遗保护事业的发展已经成为新趋向。2009年,以三江侗族剪纸为核心内容的侗族剪纸与刺绣艺术列入广西非物质文化遗产名录。三江侗族剪纸不仅拥有区别于其他地区剪纸的独特风格还蕴含着丰富的文化内涵。然而,传统的传习与创作方式下三江侗族剪纸的创新能力不足,无法适应产业的快速发展。得益于大数据和深度学习技术的飞速发展,深度学习算法在基于大规模样本数据集的图像生成
机器视觉技术已广泛应用于生产流水线中实现对产品质量的把控,有效地提升了自动化检测效率。在食品、包装、材料等行业中,需要对产品上的喷码字符信息进行识别,剔除有错误或者缺陷喷码的产品。传统机器视觉方法对于简单的任务场景具有很好的识别效果,但是其性能无法满足有复杂背景的喷码图像识别要求。因此,本文针对目前喷码识别中存在的应用通用性差、识别准确率低和检测效率低等问题,结合深度学习技术,提出了基于轻量化网络
在人类的太空旅行中,宇航员需要面对很多应激源。这些应激源可能来自极端温度、太阳和银河宇宙辐射、缺乏大气压力和高速度的微陨石的影响。除此之外,还有一个很重要的影响因素就是微重力,相较于其他的影响因素,微重力是在地实验研究中相对最容易被模拟的影响因素之一。由于在微重力环境下宇航员的生理与心理都会因失重发生一定的变化,比如太空运动病(SMS)。因此在飞行作业的人-机-环任务交互过程中宇航员非常依赖视觉进