【摘 要】
:
近年来,许多研究都试图利用词汇信息增强来提升中文命名实体识别(Named Entity Recognition,NER)效果。特别地,Soft Lexicon模型利用BMES分类集对词汇信息进行分类,之后利用词频进行加权融合,该模型在多个中文NER数据集上取得了非常好的效果。然而Soft Lexicon模型在融合词汇信息时主要采用固定词频的方式,忽略了各词汇重要程度因句子不同而变化。为此,本文提出
论文部分内容阅读
近年来,许多研究都试图利用词汇信息增强来提升中文命名实体识别(Named Entity Recognition,NER)效果。特别地,Soft Lexicon模型利用BMES分类集对词汇信息进行分类,之后利用词频进行加权融合,该模型在多个中文NER数据集上取得了非常好的效果。然而Soft Lexicon模型在融合词汇信息时主要采用固定词频的方式,忽略了各词汇重要程度因句子不同而变化。为此,本文提出了一种根据句子语义动态调整词汇权重进行词汇信息融合来提升命名实体识别精度的方法。首先将字向量输入Bert预训练模型初步获取丰富的语义信息,之后输入Bi LSTM序列建模层得到含上下文特征的隐藏表征,然后利用多头自注意力机制捕获字与其它字的紧密性程度,便于获得有句子含义的新的字表征,进而运用全局注意力的打分方式计算自匹配词与句子相关性代表词汇权重,强制性地将注意力集中在重要的词汇上,忽略不可靠的部分。最后利用条件随机场进行解码实现对实体的标注。该模型在三个数据集上分别进行了测试,在MRSA数据集上F1值提升了0.05%;在Weibo数据集的命名实体部分F1值提升1.39%,名义实体部分提升3.08%;在Resume数据集上F1值提升0.25%。三个模型上的数据结果进一步验证了本文模型的有效性。
其他文献
乳腺癌2021年全球新发病例数高达226万例,居女性恶性肿瘤疾病发病率第一位。乳腺病灶是乳腺中局部发生病变的部位,需要医生对其进行进一步诊断分析。利用计算机技术能够辅助医生进行病灶识别,节省医生的时间和精力。在众多乳腺癌检测方法中,超声检测凭借其无辐射、价格低廉等优点得到广泛使用,然而超声成像结果图像质量差,并且不可避免地存在噪声和伪影。传统方法利用单图分割技术对乳腺病灶进行分割,分割效果较差。随
环境保护与科技高质量发展是我国生态文明建设的重要一环。党的十九大召开以来,加强环境高水平保护和推动科技高质量发展已经成为我国社会主义现代化建设新的战略任务,在人类可持续发展的过程中,实现环境与科技发展和谐共生是人类发展不可或缺的重要一步。而科技是一把双刃剑,纵观人类近代发展史,不难发现科技的发展给人类的生活带来了便利,也同时给环境造成难以愈合的伤害如水源污染、土地退化、资源短缺、生物多样性减少等,
2020年初爆发的新冠肺炎具有传染性强、潜伏期长、发现性难以及反复性强等特点,已迅速蔓延至全国各地并呈现出严峻态势。感染此种病毒的患者不仅要遭受身体上的痛苦,还会对其心理健康造成影响。调查显示超过七成的患者因担心疾病预后,害怕暂无特效药无法痊愈等原因而表现出抑郁。新冠所引发的一系列心理问题,会使得患者的自我认知、生活态度以及生命意义感发生变化。因此,注重疫情期间新冠患者的心理健康成为了疫情护理工作
产品可靠性是衡量产品质量的重要指标之一,可靠性研究在各个领域都有着至关重要的作用。本文基于Weibull分布对多部件应力-强度模型的可靠性进行统计推断,具体内容如下:(1)考虑了涉及一个应力和多个来自串联系统且相互独立的强度部件的多部件应力-强度模型的可靠性。当应力和强度变量服从形状参数相同的Weibull分布时,证明了极大似然估计的存在性和唯一性,并推导出可靠性R的近似极大似然估计,且根据Fis
数字经济作为近年来新兴的经济形式,影响着国民经济社会的各个方面,为经济发展开辟了新的路径,有效地提高了各地区资源要素流动的效率。在此背景下,本文以全国各个地区的数据为依据,测度了数字经济发展和经济高质量发展水平,并以此研究两者之间的关系。本文首先回顾了数字经济和经济高质量发展相关文献,并在此基础上界定了数字经济和高质量发展的核心概念。其次,从生产函数的视角分析了数字经济如何促进经济增长,并系统分析
在区域经济一体化背景下,产业区域合作逐渐成为大势所趋,高技术产业也随之呈集群化发展。鉴于高技术产业是以技术知识为依托生产高技术产品的产业群,其发展与科技创新有着密不可分的关系。但是与发达国家相比,目前中国在科技前沿领域仍缺乏重大科技突破,技术供非所需问题严重,创新成果质量不高的现象日益突出。长三角地区作为中国经济发展最为发达的重要地带之一,是承载高技术产业集群发展的“主阵地”,也是引领科技创新高质
污染物浓度受人为污染源物排放和气象条件的双重影响。虽然人为排放是造成污染的主要原因,但气象因素(如大气扩散条件)也会影响大气中污染物的浓度。因此,在分析和评估大气污染治理政策等人为因素对空气质量的影响时,需剔除或控制气象因素的影响,进而对大气污染治理政策等人为因素对空气质量所产生影响作出科学、合理的评价。在分析人为因素对大气质量所产生的影响时,传统的统计方法通常采用多元回归分析,将气象因素作为控制
红外成像具有隐蔽性强,侦察能力强,抗干扰能力强的特点,在许多领域中都有广泛应用,特别是在军事和民用领域。由于红外小目标面积小,纹理细节缺失,同时存在大量背景噪声,红外小目标检测问题非常具有挑战性。面对场景复杂多变的红外图像,传统基于模型驱动的算法已经不太适用,因此越来越多的人开始利用深度学习的方法解决红外小目标检测问题。本文针对红外小目标的特点和检测的难点,分别设计了基于深度学习方法的目标检测网络
随着互联网技术的迭代更新,新兴的金融行业势头正盛,市场的需求也产生了更多的变化,个人信贷业务随之快速的发展起来,各种贷款平台、贷款种类层出不穷,从小到消费、住房、教育,大到企业贷款、融资等都离不开贷款。然而在全球化背景的影响下,金融市场环境波动性日益加剧的刺激之下,违约现象频发,信用风险产生的影响日益严峻,使得银行与金融机构要更加谨慎的对待借款人的个人信用状况。分类的精度在金融业起着至关重要的作用
图像去雾是一种将有雾天气下获得的雾图通过去雾算法恢复干净图像的技术,它作为基础性的低视觉任务,将很大程度上影响后续计算机视觉任务的进行。在这一领域,基于端到端的神经网络去雾是通过输入雾图直接输出干净图像,它不依赖大气散射模型,并已逐步成为当前去雾领域的主流算法,但其需要大量的训练数据并且缺乏一定的理论逻辑。相比之下,基于先验的方法可获得透射率值和大气光,而后依赖于物理模型将有雾图像转化为干净图像,