面向司法数据的事件表示方法研究

来源 :贵州大学 | 被引量 : 0次 | 上传用户:skyisheaven1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的事件抽取只关注固定的事件类型。然而,在案件分析中,需要获取所有可能的事件。在前期工作中,我们将谓语中心词作为事件的触发词,抽取案件中所有可能的事件。由于相同的谓语动词可以触发不同类型的事件,不同的谓语动词又可以触发同类型事件,加上近义词、同义词的影响,使得面向事件的司法分析面临很大挑战。为了有效支撑智能司法的各种底层任务,例如:司法数据分析、司法数据检索和司法事理图谱构建等,本文主要研究面向司法数据的事件表示方法。事件表示是将结构化的文本信息表示为计算机能理解的矩阵向量,通过利用上下文语义,将事件的语义信息嵌入到向量空间中,从而获取事件的分布式抽象语义结构。由于司法事件的语义信息与其对应的审判结果存在关联关系,本文将该关联关系引入到司法事件表示任务中,提出了基于弱监督学习的司法事件表示学习方法和基于多任务学习的司法事件表示学习方法。介绍如下:(1)基于弱监督学习的司法事件表示方法研究。司法事件与审判结果存在关联关系,然而相对于裁判文书中的单个事件而言,审判结果是一个粗粒度标签,无法直接构建有监督的事件表示模型。为了充分利用该信息,本文提出了基于弱监督学习的司法事件表示学习模型。该模型首先使用预训练的词向量将事件文本转化为向量表示。然后,通过CNN捕捉到事件文本的语义特征。并利用全连接层将语义特征嵌入到一个向量空间,获得了事件的向量表示,最后使用判决信息与该事件表示计算损失,将所有的事件损失相加作为整个模型的损失,优化目标为使预测的判决结果更加正确。通过该方法训练的事件表示,在相似度计算任务中F1值达81.0%,比对比模型高5.2%。在聚类任务中NMI值平均达0.885,比对比模型高0.187。(2)基于多任务学习的司法事件表示学习方法研究。在本文第一个方法中,训练目标单一使得学到的事件表示泛化能力弱。为了提高模型泛化能力,本文同时引入更多的审判结果作为监督信息。通过多任务学习的方式增强事件的表示学习效果,共涉及到3个学习任务。任务一:以预训练词向量为基础,获取事件各个元素的向量表示,通过张量神经网络学习事件元素之间的交互信息。任务二:利用法条语义与事件语义具有高度相似的特性,通过训练模型使得法条与事件之间尽可能相似,将法条语义信息融入到事件表示中。任务三:罪名是判决结果中最明确的信息,其与事件具有明显的关联关系,通过罪名预测任务将该关联信息融入到事件表示中,以增强事件语义。模型的学习目标为整个模型损失最小。通过该方法训练的事件表示,在相似度计算任务中F1值达77.9%,比对比模型高1.8%,在聚类任务中NMI值达0.789,比对比模型平均高0.133。
其他文献
由Hutchinson首次提出的迭代函数系(IFS)理论是生成分形集的重要方式,此后,基于IFS理论,Barnsely提出了分形插值的概念,可以用来拟合与插值非光滑的曲线和剧烈震荡的数据集.本文运用IFS理论构造了几类不同的分形插值函数(FIFs),并且拓展了有关邻近IFS的概念.研究内容与结构安排如下:第一章,介绍了选题背景和国内外研究现状,同时给出了本文研究的创新点.第二章,简要介绍了有关迭代
学位
药物成瘾是一种大脑神经结构改变的慢性疾病,对个人和社会造成了严重的危害。定量描述药物成瘾对大脑微观结构的影响,进一步发现成瘾的神经生物学原因,将为药物成瘾机制的揭示以及探寻有效戒毒方法提供一种重要的辅助手段。磁共振扩散成像(Diffusion magnetic resonance imaging,d MRI)技术已被证实是临床诊断和研究神经组织微观结构的有效成像方法,可以帮助研究人员了解疾病的神经
学位
增强现实技术将计算机生成的虚拟信息加入到真实环境中,这需要满足光照一致性、几何一致性和时间一致性,以提高虚拟信息和真实世界融合的视觉一致性。增强现实技术的光照一致性需要估计整个真实场景的光照分布,从而准确渲染虚拟物体插入到真实场景中。本文针对增强现实中的光照一致性问题,做了如下工作:1.首先针对在各种条件拍摄的彩色图像难以满足光照估计任务需求,提出了融合多分支残差与仿射变换的低照度图像增强方法。该
学位
本篇论文主要研究的是自相似网络上的随机游走问题.粒子在网络上的随机游走是网络动力学研究方向之一,平均捕获时间是衡量粒子传输效率的重要指标,因此计算平均捕获时间具有非常重要的意义.基于两种自相似网络模型(三级Sierpinski垫片网络和菱形层次网络),采用不同的视角来研究粒子在其上的捕获问题.一方面,对于三级Sierpinski垫片网络,我们考虑了粒子在其上同时进行邻近跳跃和非邻近跳跃两种游走方式
学位
随着能源互联网技术的发展,配置了风力发电机、光伏发电及储能装置的能源用户,从消费者变成了产消者,使它们增加了对外输送能源的能力,从而形成了地域分散的分布式能源结构。如果采用传统集中式的能源交易模式,虽然便于能源管理和易于设置,但也存在一些问题:其一,中心化机构可以从服务器中直接读取用户的能源交易数据等隐私信息,且存在单点故障;其二,分布式能源节点具有间歇性(如风能和光伏)、随机性(在发电计划之外)
学位
密文策略属性加密方案(Ciphertext-policy Attribute-based encryption,CP-ABE)是一种灵活的访问控制方式,方案基于用户角色的属性,数据拥有者通过制定访问策略来加密数据信息,而需要访问数据的用户只需要满足数据对应的访问策略就可以实现对数据的访问,这样的访问模式使得密文策略属性加密非常适用于现有数据存储环境。随着量子计算机的出现,使用传统数论问题构造的密码
学位
一直以来,描述多组分Bose-Einstein凝聚态之间相互作用以及多个物种竞争的非线性偏微分方程组中,解的空间渐近行为-共存或消亡,都是微分方程界研究的热点话题.近年来,人们对强竞争导致的解的相分离现象表现出极大地兴趣.在竞争参数趋于正无穷的奇异极限问题中,解的支集相互分离,因而极限问题是一个自由边界问题.许多著名数学家包括沃尔夫奖获得者美国数学家Caffarelli,我国著名数学家林芳华,澳大
学位
由于贵金属具有良好的规避风险和套期保值的作用,在通货膨胀或者危机时期,为了避免货币购买力的损失,贵金属往往成为投资者竞相追逐的对象.当前,随着新冠肺炎疫情在全球范围内的不断蔓延,国际经济形势整体表现不佳,包括贵金属市场在内的金融市场波动剧烈,市场之间的价格联动性和风险溢出效应显著增强.在此情形下,研究贵金属商品价格的动态关联和相互关系对于了解贵金属市场的复杂特征,防范贵金属市场的金融风险,为市场投
学位
本文共分为五个章节,主要讨论Laguerre多项式的递推关系,同时给出一个新的广义Laguerre多项式的递推关系.此外,本文研究了广义Laguerre多项式与Appell序列的性质,并给出二者之间的一个关系式.第一章为引言.本章分为两个部分,第一部分主要介绍Laguerre多项式和Appell序列产生的知识背景.第二部分介绍本文的主要结论和内容结构.第二章讨论了基础知识.本章分为两个小节,第一小
学位
本文研究了非局部扩散方程的Fisher-KPP问题,ut=J*u-u+f(u),t>0,0<x<h(t),其中u在[0,h(t)]的两端分别满足Dirichlet固定边界条件和Stefan自由边界条件.在生态学领域,此模型可以用来描述新物种或入侵物种的扩张问题.我们给出了全局解的存在唯一性,扩散-消逝的二择一性,扩散发生的充分条件,以及扩散发生时自由边界的渐近速度的估计.首先,在一个半无界区间上构
学位