【摘 要】
:
自然语言处理的发展浪潮正在颠覆着人类的生活方式。命名实体识别作为自然语言处理中的基础任务之一,其识别准确率对后续任务如机器翻译、推荐系统、信息检索等起着不可或缺的作用。其中,中文命名实体识别由于任务的特殊性和语言的普及率,在命名实体识别领域的研究中备受关注。此外,提高模型识别准确率通常需要大量的标注数据集来进行拟合训练,而高质量中文标注数据集的短缺已经成为影响算法性能的瓶颈之一。因此,针对匮乏标注
【基金项目】
:
国家自然科学基金“基于深度学习的移位 MIMO‘鬼’成像方法研究”(项目批准号:61871234);
论文部分内容阅读
自然语言处理的发展浪潮正在颠覆着人类的生活方式。命名实体识别作为自然语言处理中的基础任务之一,其识别准确率对后续任务如机器翻译、推荐系统、信息检索等起着不可或缺的作用。其中,中文命名实体识别由于任务的特殊性和语言的普及率,在命名实体识别领域的研究中备受关注。此外,提高模型识别准确率通常需要大量的标注数据集来进行拟合训练,而高质量中文标注数据集的短缺已经成为影响算法性能的瓶颈之一。因此,针对匮乏标注数据的高效益中文命名实体识别算法的研究工作极具应用价值和意义。本文以额外监督下中文命名实体识别算法为研究对象,在缺少训练数据的情形下,致力于使模型在达到一定识别性能的前提下最小化人工标注成本。本文研究工作包括:(1)针对中文命名实体识别任务中标记训练语料缺乏且不易获取的问题,本文提出了中文实体触发器的自动标注方法和面向少量训练数据集的命名实体识别模型m-TMN。该模型利用训练数据的额外监督,通过触发匹配网络联合训练句子向量和触发向量。并将触发向量作为后续序列标注模型的注意查询。实验证明,m-TMN模型仅用20%比例的训练数据集就超越了传统模型Bi LSTM-CRF模型40%比例训练数据集的性能表现。且该模型在精度和收敛速度上都优于TMN模型。(2)针对m-TMN模型触发匹配网络训练中实体触发器的分类准确率和匹配准确率较低的问题,本文在模型的联合训练损失函数中引入了Dice损失因子,提出了DM-TMN模型。实验结果表明,改进联合损失函数后,实体触发器的分类准确率和匹配准确率均有不同程度的提高。更进一步的,DM-TMN模型在相同比例训练数据集上的性能表现也优于m-TMN模型。(3)为更好的提取触发器编码和短句级编码的注意力权重从而进一步提升模型性能,本文提出了综合Global-Local attention机制的GLDM-TMN模型。该模型在训练注意力查询阶段,分别使用了Local attention机制和Global attention机制对触发器和短句级文本周围信息的权重进行计算。实验结果表明,GLDM-TMN模型相较DM-TMN模型,在相同比例训练数据集上的性能表现有一定的提升。
其他文献
由于中国城市规模的扩大,以及总人口的日渐增长,城市居民的生活垃圾产生量也急剧上升。然而城市的垃圾处理方式和能力,远远无法适应城市化建设的需求。垃圾处理站的兴建与城市基础设施并不匹配、城区中转站功能不足、选址不规范、垃圾转运车不足等问题将严重破坏该地区的生态环境,影响人民的幸福指数。目前国内在城市生活垃圾研究方面,主要针对于城市生活垃圾的收运现状分析,而对城市垃圾的收集、转运设施的选址等研究还比较少
近年来,现代诊断医疗技术发展迅速,计算机断层扫描(Computed Tomography,CT)已经成为一个重要工具,因为其具有检测速度快,费用低等特点,经常用来帮助诊断复杂的骨折,肿瘤等,在新型冠状病毒肺炎的斗争中也起到了举足轻重的作用。随着人们对于健康的日益关注,大家普遍希望降低受到的CT辐射,但低剂量的CT,会造成图像质量下降的现象,从而产生误诊等更严重的后果。针对低剂量CT图像去噪,根据医
随着无线技术和机器学习理论的发展,利用无线电信号和机器学习算法实现室内位置估计成为定位领域研究的热点。由于基于Wi-Fi网络设施的普及和信号的高覆盖率,本文开展了基于Wi-Fi信号的室内定位技术研究。我们以Wi-Fi信号中的信道状态信息(Channel State Information,CSI)作为定位参数,利用机器学习的方法进行位置估计。论文主要工作包括:(1)研究基于CSI室内定位的相关理论
随着近年来物联网、元宇宙等一系列概念的提出,越来越多的感知识别技术被应用于人类的生活中。虚拟现实交互是感知识别技术的一个重要应用领域,它要求用户与虚拟环境进行交互时能够得到身临其境和沉浸式的体验,而传统的人机交互设备如鼠标、键盘等无法满足这些要求。通过感知识别技术实现的人机交互设备可以对用户的肢体动作进行感知,使得用户可以直接通过自己的肢体动作,与周边的装置或者虚拟现实环境进行互动,解决了传统人机
随着信息时代的发展,无人车的功能日渐丰富,在物流运输、室内清洁与安防巡检等领域发挥重要作用。特别是在安防巡检领域,无人车可替代人工巡检,并有效的节省人力资源,提高巡检的安全性。无人车巡检路径规划是安防巡检领域中的关键研究方向之一,目前无人车巡检路径规划中存在两个问题:一是巡检点的覆盖率过低;二是复杂环境下巡检点间路径规划的效率较差,本文将围绕上述两个问题进行研究。首先,针对无人车巡检路径规划中巡检
员工创新带来的创新绩效成果提升了企业整体创新的实力,是企业创新不竭的动力来源。如何激发员工创新行为促进企业发展是理论界和企业重点关注的话题。研究中国员工创新行为的前因变量中,学者们越来越关注中国文化因素对员工行为产生的影响。中庸思维作为中国传统文化的精髓之一,深刻影响着个人的思维和行为。因此,深入探究中庸思维与员工创新行为的关系,有助于了解中国文化背景下员工思维方式和行为表现,找到激发员工创新行为
化石能源引发的能源危机和环境问题日益严峻,开发清洁能源愈发重要。2021年“碳达峰、碳中和”战略决策的提出使清洁能源再一次成为关注热点,其中太阳能电池因其无污染、无噪声、维护成本低、使用寿命长等优点而被广范研究。目前铜铟镓硒(CIGS)薄膜太阳能电池的转换效率已经逼近商业化最广泛的硅基太阳能电池,与晶体硅太阳能电池相比,CIGS薄膜太阳能电池还具有带隙可调、吸光系数高、质量轻等优点。目前高效率的C
在运营商销售服务内容从手机号码、宽带向云计算、大数据、物联网、5G专网服务的新形势下,转型成了运营商的必由之路。本文以基于国内外网格化管理相关研究以及阿米巴管理理论,对M公司展开网格化管理研究。首先明确公司网格化管理的背景以及所处环境,了解公司网格化管理的发展趋势,围绕公司当前网格化管理现状展开问卷调查,对公司当前网格化管理环境进行分析,查找公司在网格化管理中存在的问题,确定建立以阿米巴管理模式为
根据中国信息通信研究院整理的数据显示,2019年全球生物特征识别技术市场规模约达到了200亿美元,较2015年增长了100亿美元,处于高速发展状态。其中指纹识别市场规模占据了总市场的58%,人脸识别占据了18%的市场,虹膜识别约有7%的市场,其它的识别技术比如掌纹、声音、步态等则占据了剩余17%的市场。由于目前的步态识别算法存在性能不稳定、误差率高等问题,步态识别在实际生活中的应用较少。为此,本文
光治疗包括光热治疗(PTT)与光动力治疗(PDT)。PTT具有高精准性、高特异性和非侵入性等优点,但是肿瘤细胞分泌的热休克蛋白限制了其治疗效果;PDT具有选择性高、耐药性可忽略不计和非侵入性等优点,然而光敏剂产生的活性氧(ROS)寿命短、作用范围小和肿瘤组织的乏氧特征导致治疗效果不佳。气体治疗(GT)作为一种新型的局部疗法,具有气体分子渗透快、对正常组织副作用小和无耐药性等优势。因此,将PTT、P