面向司法领域的文本分类方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:hellolvkui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的普及,司法领域提出了智慧司法的概念。智慧司法将人工智能,大数据等技术应用于司法工作之中,对司法过程与结果实行统一管理。自然语言处理是智慧司法的重要研究领域,其中包括机器翻译,文本分类,语言生成技术等。本文对智慧司法中的文本分类任务进行了研究,在舆情文本和裁判文书分类两个数据集上进行了大量实验。这两个数据集可以代表大多数司法领域的文本分类任务,我们希望通过对这两个数据集的分析与实验,对司法文本分类进行全面详尽的研究。首先,我们研究并总结了常用的文本分类方法,为司法文本分类任务的研究奠定基础。其中,基于图卷积网络的文本算法在两个公开的数据集上都表现最好。我们对图卷积网络的结构以及过平滑问题进行了深入研究。针对图卷积网络中边的量纲不一致问题,提出了Hetero GCN,在Ohsumed数据集上取得了最好的结果。司法舆情是民众对于司法看法的直接反映。我们构建了首个司法舆情短文本数据集,使用多个基于深度学习的文本分类方法进行实验,报告了实验结果。针对Text GCN无法用于流式数据的缺陷进行了分析,基于分析结果提出了可用于流式数据的图卷积网络Stream GCN。实验证明了Stream GCN在司法舆情文本分类数据集上取得了最好的结果,我们基于此结果开发了司法舆情文本分类与分析系统。除了司法舆情外,裁判文书也是智慧司法的重点研究对象。图卷积网络中图的大小随样本的增大而指数增加,裁判文书中样本较多,文本平均长度较长,难以使用图卷积网络进行分类。预训练模型参数多,且能借助预训练得到的知识用于下游任务,我们在裁判文书数据集上使用多种预训练模型进行实验,实验结果超越多种基线模型。除此之外,量刑预测中的类别存在有序性,传统的分类方法无法很好地区分不同刑期的差异,我们借鉴多种用于图片年龄识别的序数回归方法,进一步提升了量刑预测的准确性。
其他文献
图数据由于其灵活性,被广泛应用于各行各业,大量历史图数据需要归档存储。随着现实世界中图数据规模的增大,图数据的存档开销也越来越高,因此有不少学者提出了大量的图数据压缩方法。其中,图概要是一种图的无损压缩方法,其无损压缩的特性保证可以从压缩后的概要图中恢复压缩前的图数据的所有信息。分析归档的概要图需要进行解压操作,这会产生额外的解压开销,因此在归档后的概要图上直接进行图分析具有重要的实际应用价值。然
学位
随着导弹拦截与反拦截技术的不断发展,导弹攻防对抗日益成为研究的热点。在一般作战场景中,被攻击的目标飞行器除了被动防御外还可以发射一颗防御弹来主动拦截来袭导弹,并同时执行机动逃逸,即“三体”问题。“三体”问题是导弹攻防对抗中最简单、研究最成熟的形式。目前导弹攻防对抗的研究主要存在以下问题:1)随着导弹突防方式越来越多样化以及智能化水平不断提高,攻防双方多枚导弹的体系对抗成为趋势,弹间通信约束,弹间避
学位
在医疗信息化进程中,产生了大量数字化医疗文本信息,如中文电子病历,患者健康记录等。医疗文本中蕴含了丰富的医疗领域知识,基于大规模的医疗知识辅助医生进行疾病诊断和风险预测是人工智能在医疗领域的重要研究,有助于提高医生诊断效率,缓解医疗资源缺乏的问题。目前研究者们主要利用深度学习强大的特征表示能力,提取医疗文本中的语义特征向量,然后进行相关的辅助诊断和风险预测研究,但该方法缺乏一定的可解释性,且主要基
学位
命名数据网络(Named Data Networking,NDN)是研究者们提出的发展未来互联网的一种“革命性”的技术路线,NDN是以内容为中心,用内容名称代替传统网络中的IP地址,实现内容与IP地址的解耦。车联网环境具有高速移动性、网络拓扑频繁变化且无线连接易断等特点,传统的基于“端到端”通信的TCP/IP网络暴露出的不安全、可靠性差和移动性差等问题给互联网的服务性能方面带来了限制。但从现有的T
学位
随着互联网的高速发展,MOOC教育开始作为一种主流的在线教学方式,聚集了大量用户以及优质的教育资源。推荐有效学习视频以满足个性化的学习需求已成为当前教育领域的一个研究热点。在MOOC平台上,一门课程可能存在多个与课程内容相对应的教学视频,每个视频的侧重点也可能不同,如何向用户推荐一个用户满意的视频,需要我们充分对用户信息建模,挖掘用户兴趣。针对在线教育推荐的现状,本文进行了深入的研究,提出了一种基
学位
学位
基于多指标时间序列数据分析的综合评价技术被广泛应用于企业决策、故障诊断、智慧医疗和气象预测等领域。多指标时间序列数据由多个单一的时间序列数据组成,各个指标序列数据之间存在一定的异构性特点,例如企业财务数据和人力资源数据,在时间序列数据采集周期、数据有效范围等方面存在较大的差异性。与此同时,不同的综合评价对象主体之间在多指标数据的完整性和有效性方面也存在差异,例如在企业市场投资决策时,上市企业和未上
学位
不一致数据最优修复计算问题的复杂性总是NP完全的,为该问题设计带有理论保证的近似算法已经成为一个独立、热门的研究领域,在数据修复、一致查询回答中有着广泛的应用。该问题通常被建模为图论中的组合优化问题,如最小带权顶点覆盖问题、最小带权集合覆盖问题等等。因此,大多数基于图论的近似算法可以直接用于不一致数据最优修复计算问题,这些算法能在多项式时间内给出较好的常数近似比结果。除了被建模为图论中的组合优化问
学位
由于互联网的广泛普及以及疫情的影响,在线教育成为学生主要的学习方式之一。在线教育平台不同于传统的课堂教学模式,学生们可以根据自身情况挑选课程内容进行学习。针对不同学生的学习需求,在海量的课程中选取适合学生的课程进行教学,教育平台需根据学生的自身能力为学生推荐合适的教育资源。由于学生会随着学习过程不断积累能力,所以实时追踪学生能力水平至关重要。认知诊断能够根据学生的历史学习记录,分析出学生在特定知识
学位
包含依赖挖掘(IND)是数据挖掘最重要的研究问题之一。包含依赖挖掘是指在一个关系型数据集中表示某一属性组合的所有值,都包含在另一属性组合的值中。它在外键检测、查询优化等领域都有重要应用。文中首先介绍了包含依赖的基本概念和现有算法及发展,然后重点从一元包含依赖挖掘的集中式和分布式两个角度进行算法原理的分析、设计、剪枝优化。集中式算法方面,本文充分利用日益增长的单节点多核计算能力和内存存储,使用多线程
学位