论文部分内容阅读
随着社会信息的公开化,社会对一些法律案件的审判结果越来越重视。社会关于每一个案件审判结果的舆论也越来越多,让法官及时的看见类似案件的舆论,也是对审判过程的一个重要参考。在法官建立一个新的裁判文书的时候,如果可以给其及时推荐相似的裁判文书,无疑可以给其一个非常好的参考。所以,需要一个裁判文书推荐系统,为法官推荐相似的裁判文书。在中国裁判文书网上,聚集了大量的裁判文书,在其中,法官也可以按关键词进行全文检索,但其无法进行语义上的检索。比如检索“毒豆芽”,却无法为其检索出“无根豆芽”这样的相似案例。所以,需要一个从语义上来判断相似度的系统。要全面的了解一个裁判文书的核心内容,就是要从裁判文书中提取出“案件事实和证据”、“双方当事人的争议焦点”、“适用法律”等内容,而“案件事实和证据”可能因为一些描述词的不准确,从而无法只是进行简单的词匹配来比较两个案件是否相似,需要从语义的层次来进行比较。利用自然语言处理技术,经过中文分词、词性标注、依存关系分析等技术可以从语义的层次来解决一个句子的具体结构,比如“种植毒豆芽”和“种植无根豆芽”都是一个关于“种植”的VOB结构,通过结构和锚点词的分析,提取出裁判文书的关键词“毒豆芽”和“无根豆芽”,然后建立向量模型,通过向量的余弦相似性来计算两篇裁判文书的相似性。相比一个通用的自然语言处理系统,本系统专注于裁判文书领域的中文语句处理。利用领域内的一些特性,经人工干预构造一个裁判文书领域内的语料库,用来给机器学习模型学习,之后将学习出来的模型应用于本系统。在中文分词、词性标注、依存关系分析的准确率上面,均超过了使用通用语料库训练出来的模型,应用在本系统提取语义层次的关键词也是更加准确。利用语义层次的关键字来进行相似度计算也取得了非常不错的效果。