论文部分内容阅读
随着人工智能愈发炙手可热,深度学习技术在司法领域中的应用得到广泛的关注和研究。司法公开三大平台的建设,推动了司法领域的信息化,大规模的裁判文书数据库为检索历史案例、分析犯罪现象等工作提供了方便。与此同时,如何有效地使用海量的数据,帮助法律从业者快速、精准地对裁判文书进行阅读和分析,成为当下亟需解决的问题。本文面向智慧检务,利用深度学习模型对基于命名实体识别的案件要素抽取技术进行了研究和比较。命名实体识别是自然语言处理的基础任务,从法律文书中提取描述案件信息的命名实体,能够帮助专业人士在短时间内迅速掌握文书的关键内容,提高工作效率,为法律从业者提供参考,同时也是构建司法领域知识图谱等任务的基础。对大量刑事案件的案件判决文书进行细致深入的阅读和分析后,本文总结出判决文书中的九类关键要素,分别是时间、地点、组织、被告人、被害人、金额、物件、伤情和罪刑。这些要素能够描述案情关键信息,是对被告人做出判决和量刑时的重要依据。由于现有的数据集在实体类别上难以满足要求,本文从CAIL2018的数据集中选取近800篇裁判文书,按照规定的实体类别对文本进行标注,构建标注数据集。本文运用四种深度学习模型,进行了九类命名实体的识别工作,比较并分析了实验结果。首先采用双向LSTM-CRF模型实现NER,利用Word2vec工具训练字向量,输入双向LSTM网络进行编码。双向LSTM的记忆机制解决了距离依赖问题,网络的隐藏层输出中含有上下文特征表达,再经过CRF模型的维特比算法输出标注序列,最终在标注语料库上获得了84.02%的F1值。为了改进模型效果,本文采用CNN-BILSTM-CRF模型,在双向LSTM-CRF模型的基础上增加了CNN层,通过卷积操作学习字符层面的特征语义,最终F1值提高了7.28%,达到91.30%。BERT是近年备受瞩目的深度学习模型,但目前把BERT应用在智慧检务领域中的研究较少。为了改进Word2vec不能解决一词多义、难以获得长距离字间特征的缺陷,本文使用BERT训练字向量,利用双向Transformer编码器一次性读取整个序列,获得句子中任意两个位置上的字间特征。BERT-CRF模型在识别任务中F1值达到80.17%。加入双向LSTM网络,在BERT输出的特征向量上做进一步语义抽取后,F1值有了5.32%的提升。本文四种模型中性能最好的是CNNBILSTM-CRF模型。