基于深度学习的罪名预测和法条推荐研究

来源 :中央财经大学 | 被引量 : 0次 | 上传用户:PYY7896321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机性能的不断提升,飞速发展的人工智能和大数据技术早已融入人们生活的方方面面,深刻而迅速地改变着人类生活。将人工智能运用到司法实践中也是法治发展的必然趋势。人工智能与司法实践相结合,并不是为了取代专业司法从业人员的工作,而是作为一种辅助手段减少实践中的量刑失衡现象,增强司法公正性;减轻法官工作量,提升裁判速度,进而整体提高司法的权威性和效率。同时,法律判决预测研究可以为普通民众提供相对专业的法律服务,降低法律咨询的门槛,减轻民众的经济负担;有利于国家普及法律知识,提高公民法律素养和司法参与度,加速实现建设法治中国的总目标。因此,本文的研究具有一定现实意义和社会意义。本文的研究方法包括文献研究法、实证研究法和对比分析法。研究内容集中在法律判决预测中最为重要的两个任务——罪名预测和法条推荐。本文将基于大量刑法数据,运用BERT预训练模型,引入层次分类思路,并参考其他信息以提高预测的准确性。同时,为证明本文使用的方法确实提高了这两个任务的精确性,本文以传统机器学习模型(Logistic Regression、SVM、Random Forest、Na(?)ve Bayes、GBDT和XGBoost)作为基线模型,将本文所用方法得出的实验结果与基线模型效果进行比较。本文的研究范围针对刑事案件,以刑事案件判决书为实证数据集,主要进行单人犯罪涉及多罪名、多法条的刑事案件预测研究。本文的研究数据来源于“中国法研杯”司法人工智能挑战赛(CAIL-2018)数据集去重后的数据,数据集共包含70万样本量,样本均来自于“中国裁判文书网”的刑法法律文书。数据预处理主要包括因变量处理、案件文本处理和法条处理。其中,因变量处理部分包括罪名处理以及法条处理。由于本文使用层次分类方法,因此将罪名按大类罪名进行划分,将法条按易混淆和不易混淆法条进行划分,再将标签Onehot编码,作为后续模型训练的标签。案件文本处理部分包括词条归一化、去停用词和分词。法条处理部分主要包含三个内容,首先根据刑法构建法条库,法条库包含数据集中出现的183条法条编号及其对应法条内容。其次筛选法条样本,剔除数据集中案发时间早于1997年刑法修订案实行时间的样本。最后构建易混淆法条集,本文判断法条是否属于易混淆法条的标准为法条预测的F1macro-ave、F1micro-ave以及二者的平均值F1score是否低于平均水平,最终通过此标准构造出的易混淆法条集共包含法条153条。描述性统计主要分析了数据集的罪名分布、法条分布以及出现频率最高三个罪名样本文本的词频统计。罪名和法条的分布情况表明数据的分布极不均匀,个别几个罪名和法条存在大量样本,而大部分罪名和法条所占样本量极少。文本词频统计主要分析了出现频率最高的三个罪名出现次数最多的前15个关键词,发现不同罪名文本内的高频关键词存在差异,各罪名的案件事实具有其特殊性。罪名预测的研究思路主要分为基于平层结构的罪名预测与基于层次分类的罪名预测。使用的方法包括机器学习方法和深度学习方法,其中机器学习方法包括Logistic Regression、SVM、Random Forest、Na(?)ve Bayes、GBDT和XGBoost,深度学习方法包括BERT-FC、BERT-Text CNN、BERT-RCNN以及BERT-DPCNN,本文使用的BERT为Open CLa P中的刑事文书BERT预训练模型。实验结果表明,引入层次分类可以提升罪名预测模型的预测效果,同时采用适当的深度学习方法也对罪名预测的精度提升有所帮助。其中,引入层次分类后的BERT-FC和BERT-RCNN模型效果最好,准确率分别达到91.90%和92.20%,F1score分别达到89.94%和89.71%。在法条推荐任务中,本文尝试了三种研究方案,包括基于深度学习方法的法条推荐、参考法条文本的法条推荐以及基于层次分类与模型融合的法条推荐。在此任务中,以基于机器学习方法与多标签文本分类的法条推荐模型为基线模型。实验结果表明,参考法条文本的法条推荐模型效果不及基线模型,可能是因为此方法的数据处理部分进行了欠采样使得该模型相较于普通机器学习模型丢失了部分信息,同时此模型经历了数据转换后也可能使得模型表现不好。基于深度学习方法的法条推荐模型有所提升,基于层次分类和模型融合的法条推荐模型效果在三个方案中最优,尝试不同权重后发现权重取0.7、0.1、0.1、0.1时模型效果最好,模型阈值取0.2时F1score最高,达到82.94%,模型阈值取0.45时准确率最高,达到92.73%。本文创新点体现在三方面:第一,本文将研究范围从单人单罪名、单人单法条扩展到了单人多罪名、单人多法条。目前刑事案件罪名预测和法条推荐领域研究的样本多属于单人单罪名和单人单法条情形。相较于前人研究,本文模型的适用范围更广泛,更贴近于真实情况,也更具有现实意义和价值。第二,本文在罪名预测和法条推荐的任务中引入了层次分类方法。前人在进行这两方面研究时多直接运用机器学习和深度学习模型。通过引入层次分类,有效提高了文本分类的精度,以及罪名预测和法条推荐结果的准确率。第三,本文尝试在法条推荐任务中引入法条文本信息。由于法条推荐任务具有其特殊性,即每个法条编号均对应法条文本。若仅将法条编号作为预测的因变量,会损失法条文本的信息。本文尝试将法条文本信息引入到法条推荐任务中,将文本预测任务转化为文本匹配任务,以达到充分利用法条文本信息的目的。
其他文献
寒武和前寒武地层之间大不整合的广泛发育使得华北内陆经历了一定程度的准平原化。广泛出露于华北西南缘的辛集组或苏峪口组是华北板块显生宙沉积的第一套地层,平行不整合于埃迪卡拉纪东坡组之上,其沉积年龄被小壳化石限定为寒武纪第二世。辛集组底部发育典型的临滨相沉积,标志着华北板块有史以来最大海侵的开始。华北寒武纪底部的这套海侵沉积记录的碎屑锆石U-Pb年代学研究不仅能验证在准平原上是否发育不同的流域体系和可能
学位
作为世界第二大经济体,我国在经济飞速发展的同时也成为了世界第一大能源消费国和碳排放国。尽管我国正大力发展清洁能源,但目前我国的能源消费结构仍以“亲碳”的煤炭为主,这也导致我国的二氧化碳排放量一直居高不下。2020年我国提出“30·60”双碳目标,向世界宣示了中国实现节能减排的积极态度和坚定决心。在如此巨大的碳减排压力下,发展创新低碳经济、实现能源结构转型已成必然。经济绿色转型离不开绿色金融这一强有
学位
秦岭造山带经历了多期复杂的构造演化过程,其中早古生代时期是其演化过程的关键阶段,目前研究普遍认为早古生代由于商丹洋持续向北的俯冲,商丹断裂以北存在典型的“沟-弧-盆”体系。但是,对其东延地区—桐柏造山带早古生代时期的造山过程、构造格架和构造演化过程等问题仍然存在争议。目前的研究主要集中在秦岭造山带和桐柏造山带西段,而对介于桐柏与大别-苏鲁地区衔接位置的东段信阳地区的研究较为薄弱,对其在早古生代时期
学位
环境问题是目前各国普遍关注的重要问题,更是我国经济高质量发展中备受重视的焦点议题。企业不加约束的生产行为是引发环境问题的主要原因之一,如何促进企业绿色转型是目前亟待解决的问题之一。在此背景下绿色信贷应运而生,政府要求将企业披露的环境信息纳入金融信贷配给的考察因素,要求银行有意识地减少对节能环保尚未达标企业提供的信贷资金支持,进而从资金源头上遏制重污染企业的进一步扩张同时引导其向绿色生产企业转型。尽
学位
近年来,随着地球化学分析技术的快速发展,越来越多的非传统稳定同位素指标在地学的众多研究领域中展现出广阔的应用前景。其中镁同位素指标在地球表生地质过程研究中应用广泛,尤其在示踪大陆硅酸盐风化方面具有巨大潜力。本文通过对国际大洋发现计划(International Ocean Discovery Program;IODP)第363航次于澳大利亚西北岸外陆架上U1483站钻取的岩芯进行沉积物粒度、镁同位
学位
随着互联网发展进程的不断推进、互联网用户规模的不断扩大和科学技术的不断提升,互联网广告由于其传播范围广且不受时空的限制等自身具备的诸多优势在广告行业不断鼎新,互联网广告也被看作目前最稳定的商业模式,各大搜索引擎平台、社会化网络平台、短视频平台等企业的大部分收入来源都是广告,而广告也已经成为部分网络公司的核心变现模式。在互联网广告的投放系统中,广告按点击来收取费用是当前比较常用的费用结算方式,即广告
学位
中国黄土高原风尘物质来源,不仅蕴含着新生代以来全球变冷、青藏高原隆升以及亚洲内陆干旱化信息,而且与过去大气环流变化具有密切联系。第四纪以来,黄土-古土壤作为堆积在黄土高原之上最重要的沉积序列,具有完整性最好、厚度最大、连续性最好的特点,与极地冰芯和深海沉积物共同称为研究全球气候变化系统的三大支柱。由于黄土中普遍存在封闭温度高、化学性质稳定、抗干扰能力强的副矿物-锆石,并且得益于矿物微区原位分析技术
学位
经过30多年的发展,我国股票市场由最初的不完备的、单一板块的市场逐步发展成多层次的股票市场。目前中国股票市场主要由主板、创业板和科创板等组成,其中主板成立时间最早,服务于大型成熟企业;创业板成立于2013年,解决了中小型企业融资难的问题;而科创板则于2019年开设,服务于科技创新型企业,进一步为高研发成本科技企业降低了融资门槛。对于证券市场来说,股市波动是否具有稳定性是判断其成熟与否的一个标准;对
学位
随着时代的发展,互联网普及率近年来不断提高,在网络上进行购物的用户规模不断扩大。经过多项调查,研究者发现,在这网络快速发展的时代,口碑就是最好的广告,它会对人们的交易决策产生很大影响,因此,口碑也变得越来越受人重视。而近些年来,我国已进入基础物质消费过剩的时代,消费繁荣为居民带来了充足的闲置商品储备,这在供给端为二手经济发展积聚了较大能量,而经济增速放缓、消费者的消费理念日趋理性,这在需求层面也促
学位
南秦岭北带紧邻华北板块和扬子板块之间的商丹缝合带,该构造带出露的地层主体为泥盆系刘岭群,虽然前人对刘岭群从不同角度做了大量研究,但对于刘岭群沉积的构造背景、构造属性及两板块碰撞时限等问题仍存在分歧。论文选取了南秦岭北带柞水-山阳-丹凤地区的泥盆系刘岭群作为研究对象,运用沉积学、岩石学、地球化学和碎屑锆石年代学方法,对南秦岭北带泥盆系刘岭群的沉积演化特征、构造背景和物源进行研究,以期对前述问题的解决
学位