基于RoBERTa和词汇增强的合同文本命名实体识别研究

来源 :东北石油大学 | 被引量 : 1次 | 上传用户:dabeisha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着“新基建”上升为国家战略,人工智能基础设施建设正在加快步伐,各行各业都在和AI相结合,加速实现企业的智能化转型。自然语言处理作为人工智能技术的基础,将其与合同文本相结合实现办公自动化可以达到合同智能审查的目的。本文主要研究合同文本的命名实体识别任务,结合合同文本的特殊性,重点研究基于深度学习和词汇增强的合同文本命名实体识别,主要研究内容如下:(1)针对目前合同文本命名实体识别的研究中,缺乏高质量合同文本命名实体识别数据集的情况,构建了面向合同文本的中文命名实体识别数据集Contract-NER。结合《中华人民共和国民法典》和领域专家意见,以买卖类合同为研究主体确定了46类具有代表性的买卖类合同实体,定义了一套适用于买卖类合同文本的标注规则,形成规范化的命名实体识别数据集Contract-NER,为后续命名实体识别研究奠定基础。(2)针对单独使用字符表示或者词汇表示进行中文命名实体识别研究无法充分利用词汇信息的问题,提出一种基于预训练合同向量和分层词典嵌入的合同文本命名实体识别模型。以预训练的合同词向量为词典,对输入句子所匹配到的所有词汇进行启发式选择。匹配词汇分为主导词汇和辅助词汇,通过对主导词汇和辅助词汇权重的分析,减少假边界信息对模型的影响,然后将其拼接到字符表示中,增强字符信息表示。对比实验结果表明,该模型能够充分学习合同文本的实体边界特征,进而提升合同文本的命名实体识别效果。(3)针对合同文本中出现的一词多义现象以及为了更好地利用词汇边界和语义信息,提出一种基于RoBERTa和词集合的合同文本命名实体识别模型。为了保留全部词汇边界信息,将每个字符的词典匹配结果分成B、M、E、S四个集合,对匹配词进行加权求和后得到词集合向量,拼接到字符表示和RoBERTa-wwm-ext生成的向量表示中,达到词汇增强和上下文语义信息增强的效果。实验结果表明,通过引入预训练语言模型和词集合向量,能够有效地提升模型的性能。综上所述,本文提出的合同文本命名实体识别方法,具有良好的性能,为合同文本命名实体识别研究提供了新的研究思路,对于企业法务快速判定法律风险、提高审核效率以及实现人工智能与法律领域场景深度融合均有着重要意义。
其他文献
显著性目标检测可分为图片显著性目标检测和视频显著性目标检测,传统的图像显著性目标检测使用RGB图作为输入,但单一RGB在光照不足和天气状况不好背景杂乱无章的情况下,无法有效地识别显著性目标,因此RGB图结合热度图(Thermal,T)的显著性目标检测成为该方向的研究热点。然而,以往的研究人员对于热度图和RGB图的差异性未充分考虑,对不同注意力之间关联理解不够深入,也未对不同层信息进行分类处理,导致
学位
空间碎片是指人类空间活动的产物,包括完成任务的火箭和卫星、火箭喷射物、在执行任务过程中的抛弃物和空间物体之间碰撞产生的碎块等。自人类开始发射卫星开始,空间碎片的数量在逐年增多,目前现存空间碎片数量可达2万有余,空间碎片的存在严重威胁载人飞船的航天活动,厄尔瓜多的“飞马座”卫星与火箭燃料残骸碰撞而直接报废,空间碎片的数量因此而陡然增多。本文的空间碎片抓取机械臂便是为解决空间碎片所带来的空间安全隐患而
学位
随着我国东电西送工程的顺利进行,变电站的噪声问题亟需解决。本文主要面向变电站的噪声问题提出了Helmholtz腔-微穿孔板并联实现低频宽带吸声降噪的方法。在本文中,设计了Helmholtz腔-微穿孔板并联结构,建立Helmholtz腔-微穿孔板并联结构吸声性能仿真的有限元模型,并对仿真结果进行实验验证。以300-1000 Hz的平均吸声系数为优化目标,采用了两种优化策略对并联结构进行吸声性能优化,
学位
近年来,由于人体姿态估计研究在多个实际场景中的深入应用,使其逐渐成为计算机视觉中的热门研究领域,市场需求的增长也给人体姿态估计技术带来了全新挑战。基于深度学习的二维到三维人体姿态估计的研究是计算机视觉中具有挑战性的任务。目前的方法仍然面临着识别的三维关键点与实际关节位置不一致的问题,这是导致识别误差大的根本原因,利用三维人体姿态与相应的二维投影来训练二维到三维网络的策略可以有效的解决这个问题。针对
学位
多肽疫苗以特异性抗原表位作为疫苗抗原成分,能够有效地减少接种不良反应,增强疫苗的免疫原性,具有良好的应用价值和前景。本文综述了多肽疫苗的制备、诱导免疫反应的原理、疫苗递送载体、优势和不足,以及细菌、病毒和肿瘤多肽疫苗的研究现状,为多肽疫苗的研发提供参考。
期刊
血液透析高血压是指部分血液透析患者,在血液透析前后的血压升高,通常不容易被控制,并伴有许多不良后果。这一现象多年来一直困扰着临床医生,因为它偏离了预期的透析结果,其血压并没有随着透析超滤的增加而得到明显改善。与其他血液透析患者相比,此类患者的年龄更大,合并症更多,并且具有显著的细胞外容量超负荷以及透析时间较短的特点。因此最近已经被确定为一个独立的死亡风险因素。结合文献,从血液透析高血压的定义、机制
期刊
随着航天事业的不断发展,对航天器开展地面低重力模拟实验的需求越来越大。低重力模拟实验能够实现对航天器的重力补偿,在地面上开展对航天器的物理仿真实验,对航天事业有着重要的意义。本课题基于实际的项目背景,需要设计一款基于悬吊法的低重力模拟系统并针对其拉力控制展开研究,通过对力控制系统的特性研究,选择合适的控制策略使拉力控制误差保持在1%以内。根据项目的技术指标,完成了低重力模拟系统的整体方案设计,主要
学位
滚动轴承是旋转机械设备的重要组成部位,在实际工作过程很容易发生故障。滚动轴承一旦发生故障将直接影响工业生产的效率和产品质量,并且很有可能带来财产损失甚至造成人员伤亡。因此,对滚动轴承的运转状态进行监测,在轴承故障发生的初期发现其异常情况,并进行故障诊断与设备维修能够极大的减少工业生产中事故的发生。滚动轴承在工作过程中会产生大量能够反应轴承运转状态信息的振动信号。但是由于工作环境的恶劣和设备中其他部
学位
疫情防控期间,网络直播教学首次大规模、成建制、高并发地出现在公众视野,相关教学实践和学术研究不断涌现。梳理了网络直播教学的本质、价值意蕴和已有教学模式研究,从教学模式的三大支柱——教育思想及理论、教学活动关系与进程、教学环境及支持出发搭建了网络直播教学模式的“三层七维度分析框架”,并据此构建纯线上型高校网络直播教学模式,以期促进网络直播教学模式理论研究与实践教学的持续完善。
期刊
6-DOF轴耦合式路面模拟试验台是目前最典型的汽车疲劳试验设备,能够对车轮进行六个方向的力或力矩,并通过模拟车辆在行驶过程中所承受的力,准确地反映出车辆的多向应力状态,达到模拟试验的要求。由于车体-轴系耦合实验平台是一个非线性耦合的系统,其各个通道之间的耦合特性对其性能有很大的影响,因此给控制带来了困难。本文对轴力耦合试验中的耦合问题进行了研究。首先,介绍了轴耦合道路模拟试验系统的设计指标、系统组
学位