面向法庭诉称文档的问题生成算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:zhongnan85
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据以指数级速度不断增长,越来越多的以数据驱动为计算模式的人工智能模型被应用到了各行各业(例如医疗、法律等领域),不断从大数据中发现知识、规律和模式,辅助行业用户,发挥出了巨大作用。在法庭审理过程中,原告和被告在进行诉称和辩称后,法官会根据原告和被告之间形成的论辩焦点提出质询性问题,甄别争论焦点,厘清案由,以形成判案依据,最终给出判案结果。本文以民间借贷这一类别案由为研究对象,研究将人工智能算法运用于辅助法官判案的方法,特别是研究自动生成首问题(leading question)这个任务。首问题(leading question)是指法律庭审中法官针对原告和被告所争论重要焦点而提出的第一个质询性问题。由于在民间借贷案由中,一般上诉人收集的证据齐全,有理有据,法官可根据上诉人提供信息进行断案,因此上诉人收集的信息为人工智能算法生成首问题提供了宝贵“燃料”,从而辅助法官断案。在法庭实践中,民间借贷案由中被告大多未到庭辩护、未作答辩,所以本文研究重点放在根据原告诉称内容生成首问题,忽略被告辩称。也就是说,本文研究的内容是,如何针对原告诉称和庭审文本材料,甄别原告和被告争论焦点,帮助法官生成质询性问题,辅助法官办案。本论文的主要工作如下:(1)提出了结合序列到序列结合注意力机制模型(seq2seq attentional model)和位置指向生成神经网络(pointer generation network)的首问题(leading question)生成方法。该方法的优点在于既利用了序列到序列结合注意力机制模型的生成优势、又利用了位置指向神经网络(pointer network)的复制(copy)功能,从而一定程度上保证所生成问题与原告诉称内容的一致性,又可提升所生成问题的新颖性。位置指向生成神经网络(pointer generation network)在下文中简称为PGN,位置指向神经网络(pointer network)在下文中简称为PN。(2)研究了庭审文本中争议焦点内容的挖掘方法。争议焦点是指庭审对话文本中法官所关心的原告/被告之间辩论的要旨。本文引入序列到序列结合注意力机制模型(seq2seq attentional model)和PGN,对争议焦点内容进行了挖掘。(3)将争议焦点作为一个辅助式任务,与首问题生成这一任务结合,设计了基于多任务学习(multi-task learning)的首问题生成方法。在这一方法中,将首问题生成和争议焦点内容挖掘作为两个任务进行协同学习,有效提高了首问题生成的效果。
其他文献
随着移动互联网技术的发展,使得移动终端设备和数据流量迅速增长,并且衍生出了一系列计算密集型和延迟敏感型的应用。然而移动终端设备的计算和存储能力有限,无法支撑计算密集型和延迟敏感型的应用,因此移动终端设备需要将计算复杂的任务卸载到云计算中心来执行,以此来减少服务延迟。然而,将计算任务迁移到云计算中心执行,会带来大量的数据传输,会引起核心网络的拥塞,更会对延迟敏感的用户带来严重影响。移动边缘计算(Mo
伴随着网络不断的高速发展,互联网早已成为人们日常生活中不可缺少的一部分。在互联网带来高速便捷的同时,也面对着严峻的安全问题。在传统互联网的网络架构中,网络设备配置复杂、不同类型设备扩展性差等缺陷问题,已经愈发的难以满足时代对网络灵活高效的管理诉求。软件定义网络(Software Defined Network,SDN)作为一种新型的网络架构概念顺应而生。这种全新的网络架构冲破了传统网络架构固有的垂
随着增强/虚拟现实、车联网和自动驾驶等新兴移动应用的飞速发展,移动终端因其自身的能力限制,无法满足移动应用对计算和存储资源的需求。移动边缘计算(Mobile Edge Computing,MEC)通过在网络边缘部署计算、存储和网络服务,能够有效地处理网络边缘产生的移动数据,满足了移动应用对于服务质量(Quality of Service,Qo S)的要求。但是,移动数据量爆炸式增长和海量设备连接给
脑电信号(Electroencephalogram,EEG)是机体自发的电活动,是一种具备时-空特性的生理信号,人情绪发生改变、产生不同想法、做出各种动作等,都会引起EEG的变化。因此,研究挖掘EEG中的特征,进而为严重运动失能患者搭建起与外界沟通的桥梁,成为脑机接口(Brain-Computer Interface,BCI)研究的重要方向。然而,由于EEG有着幅度微弱、信噪比低等特点,对它的研究
传统知识图谱主要使用从表格或文本数据中抽取到的三元组知识,随着相关技术的发展,出现了结合图像等其他模态数据构建多模态知识图谱的研究工作,在这个过程中噪声和冲突不可避免的被引入知识图谱。为了更好的应用知识图谱,需要对其中的多模态知识进行评估与验证。针对来自不同模态的三元组知识采用不同的方法进行评估,对于从文本中得到的知识,基于背景信息以及三元组上下文信息进行评估,对于从图像数据中得到的知识,基于场景
近年来,随着深度强化学习的不断发展,计算机已经在围棋、DOTA2等多个领域取得了超越人类的成绩。然而,数据利用率低、计算量大、训练单个智能体时间过长的问题仍旧阻挠着该领域的进一步发展。因此,提高数据利用率、降低所需计算量、减少训练时间对于深度强化学习领域有着十分重要的研究意义。有部分研究者利用迁移学习来帮助强化学习训练,迁移学习是一种利用源领域知识帮助目标领域训练的方法,然而如何去挑选源领域仍是一
近年来,神经对话回复模型在学术界和商业界都获得了巨大的成功,但已有的工作忽视了对话中所蕴含的立场。而立场是人类对话中的重要因素,人类往往首先对输入句产生立场,再依据立场作出相应的回复。为此,本文将在深度神经网络框架下探索融合立场的短文本对话生成方法。具体地,本文将从以下三方面进行研究:(1)面向短文本对话的立场检测:在构建微博短文本对话立场标注语料库基础上,本文分别使用Bi-LSTM和Transf
随着我国社会保险制度的不断完善,社会保险系统的信息化建设是社会保险向现代化迈进的必由之路。传统的窗口式服务已经被综合柜员制替代,因此,传统的单体架构程序已经无法满足社会保险的实际业务需求。为了有效的管理社保信息,设计、开发一套基于微服务架构的社会保险管理系统,具有重要的现实意义和实际价值。本文按照人力资源和社会保障部“网厅一体化、业务档案一体化、业务财务一体化、查询服务多样化”的要求,在了解国内外
目标检测主要是计算机视觉领域是一个重要的研究方向,在人脸检测、车辆检测等众多应用中都发挥着不可或缺的作用。随着深度学习技术的发展,相比于传统目标检测方法,基于深度学习的目标检测算法在算法精度上取得长足的进步。相比于图像识别,目标检测不仅需要判别图像中存在的目标的类别,还需要回归目标在图像中的位置。然而目前主流的目标检测算法中,如Faster RCNN仍然存在特征耦合的现象。具体表现在,分类和回归部
无线传感器网络(Wireless Sensor Network,WSN)因其中传感器节点体积小、成本低的特点,集成了传感、处理和短距离无线通信等多项功能,因而广泛适用于多种特定环境。尽管如此,传感器节点受到的资源限制和所处的恶劣环境也使得生成的数据容易受到噪声、错误、数据丢失、重复值和冲突信息的污染。在WSN中,这些受污染的数据被称为异常值。对WSN进行异常值检测对于确保数据质量,安全监控以及关键