论文部分内容阅读
裁判文书是司法实践中最重要的载体。但从裁判文书中我们经常可以看到对同一案件的不同判决,这严重影响到司法的公信力和公正性。因此,实现“类案类判”至关重要。虽然已经开发出一些类似的系统,但它们并不能很好地满足实际法律实践的需要,主要原因有三点:1)算法原因导致推送的类似案件不够精确和全面。2)推送的类似案件来源不明确,所属法院的层次不够清晰。3)地方各自为政,导致不同地区“类案”的判决有着显著的差异性。此外,他们的方法大多基于关键词匹配,无法根据自然语言描述的犯罪事实找到相似的案件,因而导致参考的相似案件不全,进而导致类案不类判的发生。因此,本文基于自然语言处理技术和文本相似度,采用多轮语音问答的方式,开发了一个基于盗窃罪的刑事案件类案检索系统。更具体地说,我们的系统采用了科大讯飞的在线语音识别和语音合成技术,准确识别用户的语音输入和高效转化系统的文本输出,以达到用户与系统能以高效便利的语音方式进行交互。然后利用自然语言处理技术对用户的输入文本进行相应的理解,并进行多轮的问答过程。同时,我们还提出了一种基于文本结构化和语义相似度的计算方法来检索最相似的案例。对一千个真实的法律判决文书进行实验测试,结果表明该系统具有正确的人机对话功能和较高的信息检索精度,能够很好地满足法律实践中类似案件检索的需要。本文主要研究工作如下:1.实现了法律判决文书的结构化处理。非结构化的文本数据进行结构化处理是现目前研究的热点,有许多相关算法。本文对法律判决文书中不同的实体采用不同的算法进行信息抽取,比如基于斯坦福的实体抽取算法、基于规则的方法、基于词库的方法、基于正则的方法等信息抽取技术对法律判决文书进行结构化处理。2.实现了基于自然语言处理的多轮问答。我们采用现有的语义槽技术,手工编写面向法律领域的语义槽库和同义词库,自定义相关变量和常量,并在现有的语义槽技术的基础上,改进了语义槽的回答语义部分,增加了反问的回答语义信息,使得系统能有效处理上下文信息,实现了多轮对话功能。3.实现了加权与文本相似度相结合的模型。根据现有法律的类似案件需求,结构化的方法可以实现法院及其上述法院的优先推荐权。但由于法律文本的复杂性,结构化的数据不能完全反映犯罪过程的性质,所以本文提出了在结构化文本加权的基础上,再融入了文本相似度值。另外,由于法律文本篇幅过长的特性,在进行相似度计算前,使用TextRank技术对其进行摘要抽取的预处理。经过统计分析,实验结果表明,此模型的性能相比于现有的算法有着明显的提高。4.融入了科大讯飞的语音识别与合成技术。在语音研究方面,近几年,科大讯飞发展迅速,科大讯飞的语音识别与合成技术也相对较为成熟。为了给用户提供便利,我们开发的系统融入了科大讯飞开发的语音识别与合成技术,使得用户与系统能用语音输入和语音输出的方式进行交互。