论文部分内容阅读
随着计算机性能的不断提升,飞速发展的人工智能和大数据技术早已融入人们生活的方方面面,深刻而迅速地改变着人类生活。将人工智能运用到司法实践中也是法治发展的必然趋势。人工智能与司法实践相结合,并不是为了取代专业司法从业人员的工作,而是作为一种辅助手段减少实践中的量刑失衡现象,增强司法公正性;减轻法官工作量,提升裁判速度,进而整体提高司法的权威性和效率。同时,法律判决预测研究可以为普通民众提供相对专业的法律服务,降低法律咨询的门槛,减轻民众的经济负担;有利于国家普及法律知识,提高公民法律素养和司法参与度,加速实现建设法治中国的总目标。因此,本文的研究具有一定现实意义和社会意义。本文的研究方法包括文献研究法、实证研究法和对比分析法。研究内容集中在法律判决预测中最为重要的两个任务——罪名预测和法条推荐。本文将基于大量刑法数据,运用BERT预训练模型,引入层次分类思路,并参考其他信息以提高预测的准确性。同时,为证明本文使用的方法确实提高了这两个任务的精确性,本文以传统机器学习模型(Logistic Regression、SVM、Random Forest、Na(?)ve Bayes、GBDT和XGBoost)作为基线模型,将本文所用方法得出的实验结果与基线模型效果进行比较。本文的研究范围针对刑事案件,以刑事案件判决书为实证数据集,主要进行单人犯罪涉及多罪名、多法条的刑事案件预测研究。本文的研究数据来源于“中国法研杯”司法人工智能挑战赛(CAIL-2018)数据集去重后的数据,数据集共包含70万样本量,样本均来自于“中国裁判文书网”的刑法法律文书。数据预处理主要包括因变量处理、案件文本处理和法条处理。其中,因变量处理部分包括罪名处理以及法条处理。由于本文使用层次分类方法,因此将罪名按大类罪名进行划分,将法条按易混淆和不易混淆法条进行划分,再将标签Onehot编码,作为后续模型训练的标签。案件文本处理部分包括词条归一化、去停用词和分词。法条处理部分主要包含三个内容,首先根据刑法构建法条库,法条库包含数据集中出现的183条法条编号及其对应法条内容。其次筛选法条样本,剔除数据集中案发时间早于1997年刑法修订案实行时间的样本。最后构建易混淆法条集,本文判断法条是否属于易混淆法条的标准为法条预测的F1macro-ave、F1micro-ave以及二者的平均值F1score是否低于平均水平,最终通过此标准构造出的易混淆法条集共包含法条153条。描述性统计主要分析了数据集的罪名分布、法条分布以及出现频率最高三个罪名样本文本的词频统计。罪名和法条的分布情况表明数据的分布极不均匀,个别几个罪名和法条存在大量样本,而大部分罪名和法条所占样本量极少。文本词频统计主要分析了出现频率最高的三个罪名出现次数最多的前15个关键词,发现不同罪名文本内的高频关键词存在差异,各罪名的案件事实具有其特殊性。罪名预测的研究思路主要分为基于平层结构的罪名预测与基于层次分类的罪名预测。使用的方法包括机器学习方法和深度学习方法,其中机器学习方法包括Logistic Regression、SVM、Random Forest、Na(?)ve Bayes、GBDT和XGBoost,深度学习方法包括BERT-FC、BERT-Text CNN、BERT-RCNN以及BERT-DPCNN,本文使用的BERT为Open CLa P中的刑事文书BERT预训练模型。实验结果表明,引入层次分类可以提升罪名预测模型的预测效果,同时采用适当的深度学习方法也对罪名预测的精度提升有所帮助。其中,引入层次分类后的BERT-FC和BERT-RCNN模型效果最好,准确率分别达到91.90%和92.20%,F1score分别达到89.94%和89.71%。在法条推荐任务中,本文尝试了三种研究方案,包括基于深度学习方法的法条推荐、参考法条文本的法条推荐以及基于层次分类与模型融合的法条推荐。在此任务中,以基于机器学习方法与多标签文本分类的法条推荐模型为基线模型。实验结果表明,参考法条文本的法条推荐模型效果不及基线模型,可能是因为此方法的数据处理部分进行了欠采样使得该模型相较于普通机器学习模型丢失了部分信息,同时此模型经历了数据转换后也可能使得模型表现不好。基于深度学习方法的法条推荐模型有所提升,基于层次分类和模型融合的法条推荐模型效果在三个方案中最优,尝试不同权重后发现权重取0.7、0.1、0.1、0.1时模型效果最好,模型阈值取0.2时F1score最高,达到82.94%,模型阈值取0.45时准确率最高,达到92.73%。本文创新点体现在三方面:第一,本文将研究范围从单人单罪名、单人单法条扩展到了单人多罪名、单人多法条。目前刑事案件罪名预测和法条推荐领域研究的样本多属于单人单罪名和单人单法条情形。相较于前人研究,本文模型的适用范围更广泛,更贴近于真实情况,也更具有现实意义和价值。第二,本文在罪名预测和法条推荐的任务中引入了层次分类方法。前人在进行这两方面研究时多直接运用机器学习和深度学习模型。通过引入层次分类,有效提高了文本分类的精度,以及罪名预测和法条推荐结果的准确率。第三,本文尝试在法条推荐任务中引入法条文本信息。由于法条推荐任务具有其特殊性,即每个法条编号均对应法条文本。若仅将法条编号作为预测的因变量,会损失法条文本的信息。本文尝试将法条文本信息引入到法条推荐任务中,将文本预测任务转化为文本匹配任务,以达到充分利用法条文本信息的目的。