面向司法裁判文书的犯罪金额智能提取技术研究

被引量 : 0次 | 上传用户:qxwww1011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
司法领域包含大量法律条文、裁判文书等文本信息,将自然语言处理技术应用于司法领域,赋能智慧司法,是人工智能时代司法领域发展的重要方向。面向司法裁判文书的犯罪金额提取任务,旨在通过自然语言处理技术,自动计算出裁判文书中涉案金额,这不仅能够助力司法文书信息抽取,还可以辅助司法判决预测。论文对面向司法裁判文书的犯罪金额智能提取技术进行了研究。通过对大量涉及犯罪金额的司法裁判文书数据集的分析,总结出金额操作符分类规律与最终金额的计算规则,提出了基于规则的犯罪金额提取方法。论文基于规则标注与人工校对的方法,构建了金额分类数据集。在此基础上,论文使用机器学习的方法对操作符进行预测,研究了基于预训练语言模型的犯罪金额提取方法。为了充分利用大规模未进行操作符标注数据中蕴含的领域知识,论文创造性地引入任务增强技术,研究了结合任务增强的犯罪金额提取方法。该方法通过设计一个辅助任务文本生成器,获取大量领域内辅助任务数据,并在进行辅助任务的同时对BERT模型进行微调,最终获取到针对课题任务的领域内BERT模型。论文进一步对损失函数进行优化,将对最终金额预测的损失加入到损失函数中,进行反向传播,使得模型能够在学习金额操作符标签特征的过程中也可以与最终犯罪金额的特征相结合,从而缓解在模型预测过程中金额操作符标签与最终犯罪金额的准确率变化不一致的问题。论文使用“中国法研杯司法人工智能挑战赛(LAIC2021)”中发布的“犯罪金额要素提取”数据集进行对比实验,实验结果证明了课题研究工作的有效性。论文设计并实现了一个司法裁判文书犯罪金额提取系统,演示了犯罪金额提取的过程和结果。具体来说,论文的研究工作包含以下几个方面。(1)提出基于规则的犯罪金额提取方法。论文对大量司法裁判文书的内容及任务进行了分析,给出了任务的形式化定义和基于规则的解决方案。该方案将犯罪金额智能提取任务分解成犯罪金额抽取与操作符分类任务,即首先从文本中识别出所有金额,并为每个金额分配一个操作符,然后通过自定义的推理规则,完成最终金额的计算。依据裁判文书内中文金额的特点,本文使用启发式规则的方法进行金额识别,并达到了99.6%的准确率。该方法采用基于规则的操作符关键词匹配方法,实现简单有效的操作符分类。本文基于规则标注和人工校对的方法,构建了金额分类数据集。(2)针对基于规则的金额操作符分类方法泛化能力弱的问题,提出了基于预训练语言模型的犯罪金额提取方法。该方法使用预训练语言模型为裁判文书中的文本生成动态语义表示向量,并采用softmax分类器判断每个已知金额的操作符,将当前成熟的文本分类技术应用于金额操作符分类。(3)为了更充分地利用未标注数据集,论文提出了结合任务增强的犯罪金额提取方法。以自然语言推理为辅助任务的任务增强技术,将大规模司法领域知识整合到通用语料中训练,获取专用于司法领域的预训练语言模型,使其能够感知领域内词汇语义并具备自然语言推理能力。该方法能够充分利用大规模的领域数据,缓解低资源任务带来的问题,提高了犯罪金额提取的准确率。(4)为了缓解上述模型在训练过程中金额操作符分类准确率与犯罪金额预测准确率变化趋势不一致的问题,论文研究了结合犯罪金额与操作符标签的金额提取方法。在上述模型采用的操作符分类损失函数的基础上,加权考虑了犯罪金额预测损失函数,使模型在训练过程中不仅可以学习到每一个金额的特征,也可以考虑到最终金额的损失,进一步提升了犯罪金额提取的准确率。(5)基于论文所提出的相关技术,设计并实现了司法裁判文书犯罪金额提取系统。该系统演示了司法裁判文书犯罪金额提取任务的过程,通过实例,展示了所提取出金额的操作符标注结果,证明了模型的可解释性,在实践中检验了论文提出方法的实用性。
其他文献
VLC是利用波长范围在380nm到750nm之间的可见光波段进行数据调制的通信方式,由于无需频谱许可、可兼顾照明、保密性好和系统速率高等特点,成为6G室内覆盖的候选方案之一。为了提高传输速率,VLC通常采用修正的OFDM调制方案,为了进一步提高频谱效率,有人提出将OFDM和CDMA两种调制技术结合起来的MC-CDMA调制移植到VLC系统。本文针对基于ACO-MC-CDMA调制的VLC系统,研究了接
学位
改革开放后,带有“中国制造”标签的产品开始出现在国际市场,“中国制造”形象不仅代表着中国制造业水平,也向世界讲述着中国发展建设成就的故事。《朝日新闻》作为日本主流报刊媒体,在日本拥有巨大的影响力,其新闻呈现及话语特征具有重要的研究意义,通过考察《朝日新闻》“中国制造”新闻样本,试图了解“中国制造”在日本媒体的形象呈现,并在此基础上分析“中国制造”媒介形象的形成原因,提出“中国制造”国际传播的思考。
学位
面对复杂场景时,人类会调用多种感官去感知并搜寻目标物体,进而完成各种操作。同样对于机器人而言,当处于非结构化的现实环境中时,仅仅依赖单一模态很难完成复杂的感知操作任务,例如仅视觉条件下无法分辨物体的软硬度及纹理。为了提升自身的感知能力,智能机器人需要在理解人类意图的基础上,利用多源传感器(深度相机、声音传感器、触觉传感器等)构建的多层次感知通路捕捉物体的异构模态信息,并结合高性能的信息处理中心和高
学位
随着5G商用化部署及下一代移动通信研究的全面展开,网络能量效率在大规模MIMO系统中的重要性逐渐突显,低精度量化信号重构技术作为降低系统硬件开销与功耗的重要手段,在实际部署时仍面临算法复杂度高、鲁棒性较差、数字同步困难等挑战。本论文面向低精度量化技术与大规模MIMO、OFDM技术深度融合的场景,对大规模机器类型通信网络接入、信道估计以及OFDM链路自适应传输方案等关键问题展开研究。首先,总结低精度
学位
智能设备和5G网络的普及推动了视频信息与人的交互方式和速度,使得视频成为人们生活中难以缺少的一部分。但技术的发展也使视频信息的获取和修改变得更加简单,对视频信息的安全造成了威胁。为了保证视频信息的安全性,视频信息隐藏技术应运而生。其中基于编码标准的信息隐藏技术的应用更加广泛,VVC(Versatile video coding,VVC)是最新公布的视频编码标准,比之前的编码标准能提升一半的性能。考
学位
随着通信技术与信息技术的快速发展,智慧交通作为有效提升交通综合治理能力、确保出行安全、加快城市可持续性发展的重要手段,得到了学术界与产业界的广泛关注。特别是近年来,“交通强国建设纲要”提出“构建安全、便捷、高效、绿色、经济的现代化综合交通体系,加快建设保障有力、世界前列的交通强国”的目标进一步推动我国交通系统向现代化、综合化、智能化方向发展。作为智慧交通系统的“中枢系统”,高速移动通信系统负责承载
学位
目的:本研究使用黄芪建中汤加减联合常规西药治疗脾胃虚寒型十二指肠溃疡伴幽门螺杆菌感染的患者,通过评价中医证候疗效、内镜下黏膜修复情况、Hp根除率和血清IL-6、GAS-17、PGⅠ、PGⅡ水平变化情况等方面,探讨黄芪建中汤治疗本病的疗效,验证其可行性和安全性,以期在本病的治疗上提供更有效的方法。方法:将收集到的十二指肠溃疡伴幽门螺杆菌感染的68例患者资料进行整理,依照随机数字表法进行分组。对照组中
学位
近年来,卷积神经网络在各种计算机视觉任务中取得了巨大的成功,人脸检测作为计算机视觉中的重要研究方向,其性能也得到了不断的提高。在人脸检测的应用场景中会存在很多限制因素,对人脸检测的性能带来极大的挑战,例如尺度、表情、姿态、遮挡、光照、模糊等。本文详细阐述了基于卷积神经网络的人脸检测的工作进展,以进一步提升检测性能为目标,提出了若干人脸检测方法。本文的主要工作包括以下三个方面的研究内容。1.随着人脸
学位
网络攻击频发,国际网络争端问题喷涌出现,网络空间的国际法问题越来越突出,在当前适用于网络空间的国际法立法空白的背景下,迫切地需要国际社会的各方主体主动加入网络空间的治理中。近年来,我国高度重视对网络空间国际法治理的推动,这是因为网络空间作为全球治理和国际规则制定的新兴领域,对国家利益和国际关系来说至关重要。习总书记指出,中国应在互联网领域增强国际话语权和规则制定权。这表明在未来相当长一段时间,中国
学位
木质纤维素经化学或生物炼制可制取多种醇(醛)类中间化合物,这些生物质醇/醛再经氧化生成的有机酸和酮类物质可作为生物基平台化合物在能源、化工和医药等领域具有广泛的应用基础,并且可显著提高木质纤维素资源生物转化的经济和社会效益。与化学催化方法相比,氧化葡萄糖酸杆菌(Gluconobacter oxydans)全细胞催化氧化技术凭借化学基团选择性强、过程绿色和易调控等显著优势,显示出良好的发展潜力和应用
学位