【摘 要】
:
司法人工智能中主要挑战性问题之一是案情关键要素识别,现有方法仅将案情要素作为一个命名实体识别任务,导致识别出的多数信息是无关的.另外,也缺乏对文本的全局信息和词汇局部信息的有效利用,导致要素边界识别的效果不佳.针对这些问题,提出一种融合全局和局部信息的关键案情要素识别方法.所提方法首先利用BERT模型作为司法文本的输入共享层以提取文本特征.然后,在共享层之上建立司法案情要素识别、司法文本分类(全局
【基金项目】
:
国家重点研发计划(2020YFC0832700); 国家自然科学基金(62172449,62006251); 湖南省自然科学基金(2022JJ30211,2021JJ30870,2021JJ40783); 长沙市自然科学基金(kq2202300); 长沙市科技计划
论文部分内容阅读
司法人工智能中主要挑战性问题之一是案情关键要素识别,现有方法仅将案情要素作为一个命名实体识别任务,导致识别出的多数信息是无关的.另外,也缺乏对文本的全局信息和词汇局部信息的有效利用,导致要素边界识别的效果不佳.针对这些问题,提出一种融合全局和局部信息的关键案情要素识别方法.所提方法首先利用BERT模型作为司法文本的输入共享层以提取文本特征.然后,在共享层之上建立司法案情要素识别、司法文本分类(全局信息)、司法中文分词(局部信息)这3个子任务进行联合学习模型.最后,在两个公开数据集上测试所提方法的效果,结果表明:所提方法 F1值均超过了现有的先进方法,提高了要素实体分类的准确率并减少了识别边界错误问题.
其他文献
目的:探讨FOXM1蛋白在卵巢癌细胞核/间质中表达情况及其与患者预后之间的联系,为卵巢癌预后判断提供依据。方法:利用组织芯片技术和免疫组化法检测FOXM1蛋白在卵巢癌细胞核/间质中的表达情况,基于免疫组化抗体染色强度和阳性率的综合评分将患者分为高、低表达组,并结合临床病理及患者预后等临床数据分析FOXM1蛋白与患者预后之间的关系。结果:1、卵巢癌组织芯片共154个位点,实际有效位点133个,其中F
目的研究CD95对宫颈癌Caski细胞增殖、侵袭及凋亡的影响,并探索其可能的作用机制,为宫颈癌的治疗提供新靶点。方法选择Caski细胞,用不同浓度CD95抗体(0μg/m L、0.313μg/m L、0.625μg/m L、1.25μg/m L、2.5μg/m L、5μg/m L)处理Caski细胞24h和48h,利用CCK8检测细胞活性。用0μg/m L、1.25μg/m L、5μg/m LCD
背景宫颈癌是严重威胁全球女性健康的恶性肿瘤之一,此研究关注于宫颈癌发生发展过程中相关基因的生物学机制,并挖掘具有生存预测价值的基因。方法提取GEO数据库中宫颈癌组织及正常组织的基因表达数据,从TCGA中提取宫颈癌患者转录组测序数据、临床数据、生存时间以及生存状态信息;分析宫颈癌患者的基因表达差异情况;通过clusterprofiler包对差异基因进行功能富集分析;STRING数据库构建蛋白互作网络
网络流量加密在保护企业数据和用户隐私的同时,也为恶意流量检测带来新的挑战.根据处理加密流量的方式不同,加密恶意流量检测可分为主动检测和被动检测.主动检测包括对流量解密后的检测和基于可搜索加密技术的检测,其研究重点是隐私安全的保障和检测效率的提升,主要分析可信执行环境和可控传输协议等保障措施的应用.被动检测是在用户无感知且不执行任何加密或解密操作的前提下,识别加密恶意流量的检测方法,其研究重点是特征
代码搜索是当下自然语言处理和软件工程交叉领域的一个重要分支.开发高效的代码搜索算法能够显著提高代码重用的能力,从而有效提高软件开发人员的工作效率.代码搜索任务是以描述代码片段功能的自然语言作为输入,在海量代码库中搜索得到相关代码片段的过程.基于序列模型的代码搜索方法 DeepCS虽然取得了很好的效果,但这种方法不能捕捉代码的深层语义.基于图嵌入的代码搜索方法 GraphSearchNet能缓解这个
如何从海量数据中快速有效地挖掘出有价值的信息以更好地指导决策,是大数据分析的重要目标.可视分析是一种重要的大数据分析方法,它利用人类视觉感知特性,使用可视化图表直观呈现复杂数据中蕴含的规律,并支持以人为本的交互式数据分析.然而,可视分析仍然面临着许多挑战,例如数据准备代价高、交互响应高延迟、可视分析高门槛和交互模式效率低.为应对这些挑战,研究者从数据管理、人工智能等视角出发,提出一系列方法以优化可
目的:血清糖类抗原125(CA125)和人附睾蛋白4(HE4)在子宫内膜癌(EC)淋巴结转移的预测价值分析。方法:全面检索中英文数据库:中国知网、万方、维普、CBM、Pub Med、The Cochrane Library和EMBASE,收集自建库以来至2021年12月发表的相关所有中英文文献。中文检索词:糖类抗原125;人附睾蛋白4;子宫内膜癌;淋巴结转移。英文检索词:Carbohydrate
如何提高异构的自然语言查询输入和高度结构化程序语言源代码的匹配准确度,是代码搜索的一个基本问题.代码特征的准确提取是提高匹配准确度的关键之一.代码语句表达的语义不仅与其本身有关,还与其所处的上下文相关.代码的结构模型为理解代码功能提供了丰富的上下文信息.提出一个基于函数功能多重图嵌入的代码搜索方法.在所提方法中,使用早期融合的策略,将代码语句的数据依赖关系融合到控制流图中,构建函数功能多重图来表示
基于宽度学习的动态模糊推理系统(broad-learning-based dynamic fuzzy inference system, BL-DFIS)能自动构建出精简的模糊规则并获得良好的分类性能.然而,当遇到大型复杂的数据集时, BL-DFIS因会使用较多模糊规则来试图达到令人满意的识别精度,从而对其可解释性造成了不利影响.对此,提出一种兼顾分类性能和可解释性的模糊神经网络,将其称为特征扩展
目的:探讨宫颈小细胞神经内分泌癌(Small cell neuroendocrine carcinoma of the cervix,SCNCC)的临床病理特征及不同治疗方式对预后的影响,为临床诊治提供参考。方法:回顾性分析2010年1月1日至2021年10月31日我院收治的宫颈小细胞神经内分泌癌患者的临床病理资料,纳入符合条件的99例病例。根据国际妇产科联盟(FIGO)2009版的临床分期标准,