【摘 要】
:
命名实体识别旨在从无结构文本中识别出属于预定义语义类型的片段,是信息抽取和自然语言处理的关键问题之一。过去二十年里,命名实体识别技术取得了很多成功进展,但绝大多数的方法需要依赖大量同领域的标注语料。这使得将训练好的模型应用到其它领域时,必须在人工标注的目标领域样例上重新训练模型,否则性能下降剧烈。本文从以下两方面入手,提高目标领域的实体识别性能。一方面,试图从源领域的标注数据中挖掘任务相关、领域无
论文部分内容阅读
命名实体识别旨在从无结构文本中识别出属于预定义语义类型的片段,是信息抽取和自然语言处理的关键问题之一。过去二十年里,命名实体识别技术取得了很多成功进展,但绝大多数的方法需要依赖大量同领域的标注语料。这使得将训练好的模型应用到其它领域时,必须在人工标注的目标领域样例上重新训练模型,否则性能下降剧烈。本文从以下两方面入手,提高目标领域的实体识别性能。一方面,试图从源领域的标注数据中挖掘任务相关、领域无关的知识。另一方面,充分利用无需监督信息的资源,如两个领域的无标注数据、语言模型等。具体而言,本文的主要工作内容如下:(1)面向目标领域少量标注数据的命名实体识别在目标领域有少量标注数据的场景下,本文提出了一种包含多个约束的多任务学习框架,分别抽取领域无关和领域有关特征。为了学习领域无关的特征,我们设置了一个共享编码器,并引入对抗训练,迫使一个分类器无法根据共享编码器的输出,判断训练实例的领域来源。为了学习领域有关的特征,我们给输入样例打上领域标记,帮助模型区分训练样例。同时,两个领域各有一个私有编码器。我们定义了一种软正交损失,鼓励共享编码器和私有编码器从不同的角度抽取特征。最后,在两个目标领域的数据集上,验证方法的有效性。(2)面向目标领域无标注数据的命名实体识别在目标领域仅给定无标注数据的场景下,本文自动构建目标领域的弱标注语料并对其建模。首先,采用两种不同的方法对无标注数据进行自动标注;然后,采用留“同”去“异”的方式,尽量减少错误标注,自动生成局部标注的语料;最终,提出一种新的基于局部标注学习的实体识别模型,该模型可以在弱标注数据上进行训练。新闻领域到社交领域和金融领域的迁移实验结果证明,本文所提方法能有效提升命名实体识别模型的领域自适应性能,并且迁移代价较低。(3)基于弱监督的跨领域命名实体识别系统实现本文设计并实现了一个面向弱监督场景(包括目标领域无标注数据和目标领域少量标注数据两个场景)的跨领域命名实体识别系统。该系统充分利用源领域数据和目标领域数据,训练得到目标领域的命名实体识别模型。通过模块化本文研究中涉及的跨领域命名实体识别算法,用户可以快速方便地配置和使用该系统,并在该系统基础上进行修改和扩展。除此之外,该系统还支持以多种方式集成多种预训练语言模型。实验结果表明,该系统可以获得较高的目标领域实体识别性能。综上所述,本文研究了两种场景下命名实体识别的领域迁移问题,我们希望这些初步的进展能够为命名实体识别的实际应用提供些许帮助。
其他文献
研究背景:下肢深静脉血栓形成(DVT)是多种原因导致的下肢深静脉血管内血液异常凝结,会阻塞相应血管,导致静脉回流受阻。如治疗不及时,会继发严重的下肢静脉疾病,如下肢静脉曲张、色素沉着、慢性经久不愈的溃疡等。髂静脉狭窄(IVCS)被认为是DVT最常见的继发性危险因素、也是其发生的解剖学基础和血栓复发的重要因素。目前国内外关注的重点包括以下两个方面:第一,就何种程度的狭窄需要进行临床干预业界存在较大的
研究目的:肿瘤传统治疗方法(如手术治疗、放射治疗以及化学药物治疗等)存在术后复发以及术后患者生活质量下降的风险,且磁共振成像因其对比剂在体内循环时间短难以实现对机体的长期监测。因此,研发一种安全、有效的肿瘤诊疗制剂对提高肿瘤治疗效果和长期监测肿瘤发展具有重要意义。近些年研究发现极小尺寸的氧化铁纳米粒具备成为磁共振成像T1对比剂的能力,同时这一类含铁复合材料与临床常用磁共振成像对比剂马根维显(Gd-
<正> 1925年生于河北省宁河县,1950年拜师学习中医,1955年取得中医针灸医师合格证书,1963年毕业于哈尔滨医科大学。现任哈尔滨医科大学附属第一医院针灸科主任、主任医师,黑龙江省针灸学会常务理事兼秘书长,中国康复学会黑龙江分会理事,哈尔滨市针灸研究所研究员,蒙罗维亚中国成龙中医针灸主任(利比里亚)。早年拜师于姬天枢、与士今门下。曾进修于中国中医研究院受教于董德懋、赵尔康、李志明。他善于中
随着移动互联网的飞速发展,我们已经步入了信息爆炸的时代,平台通过互联网提供种类丰富的服务(如购物、视频、新闻等),而多样的服务也带来了“数据过载”的问题。如何从海量的数据中挖掘有效的数据亟待解决,推荐系统应运而生。推荐系统的主要目标是根据用户与物品的交互信息学习用户的兴趣偏好,根据用户的兴趣个性化推荐物品。但推荐系统始终面临着数据稀疏和冷启动问题,通过引入用户和物品的特征能在一定程度上缓解上述问题
光固化快速成型是将紫外光照射到光敏树脂表面,使其连续固化并逐层叠加成实体零件。本文采用8.9寸的2K液晶显示屏(LCD)作为选择性透光设备,可用于小批量制造工业装配件、医疗牙具和动漫手办等。该成型方式的效率与质量难以协调是制约其发展的主要因素,本文通过解构其成型流程,在各环节提出二者的调和策略。主要研究内容如下:(1)使用了大尺寸LCD作为选择性透光设备并将紫外光功率增加到120W。在机械关键部件
目的:探讨日间高碳酸血症对阻塞性睡眠呼吸暂停低通气综合征(OSAHS)患者记忆力和执行功能的影响。方法:前瞻性收集2019年8月至2020年11月因打鼾于苏州大学附属第二医院睡眠中心就诊的患者,纳入符合入排标准的OSAHS患者123例,详细收集所有患者的基本信息、一般临床资料,检测日间清醒状态下经皮二氧化碳分压(PtcCO2),并行记忆力和执行功能评分,以及整夜多导睡眠监测(PSG)。记忆力和执行
车联网中的车辆通过广播基本安全消息(Basic Safety Message,简称BSM)来共享车辆及交通相关信息,从而提高交通效率和安全性。专用短程通信(Dedicated Short Range Communication,简称DSRC)协议限制了BSM只能在控制信道(Control Channel,简称CCH)上传输,进而导致了BSM的传输效率较低,影响交通效率及道路安全性。随着车流密度的不
群智感知具有时空覆盖广、成本低、应用场景普适等突出优势,可以高效地实现众多极具吸引力的新型感知应用。然而,这些通过利用群体智慧来解决复杂问题的群智感知应用受到参与用户的异质性、随机性等因素的影响,导致群智感知系统收集的感知数据质量难以保证。因此,如何选择合适的用户完成感知任务以保证任务的感知质量是群智感知应用中亟待解决的重要问题,通过设计合理的激励机制鼓励更多潜在用户参与群智感知任务被认为是保证平
随着电商平台的兴起,网络上产生了大量产品相关的评价信息,对市场调研以及潜在客户购买意向决策具有重要意义。面对海量的评价信息,如何快速挖掘产品性能关键评价,从而生成与产品性能息息相关的问答数据具有极大的研究价值。因此,本文针对大量产品评价数据,通过问题生成模型,挖掘用户最关心的产品性能相关问题。传统的问题生成主要针对问答任务相关数据,采用端到端的深度学习架构模型。而基于产品评论的问题生成,不仅需要考
事件抽取旨在挖掘自由文本中的事件信息,并以结构化的形式呈现。它主要包含四个子任务:触发词识别、事件类型分类、论元识别与事件角色分类,ACE为其提供权威数据集ACE2005,并将前两个子任务统称为“事件检测”。基于数据集ACE2005,本课题主要围绕句子级英文事件检测展开研究。目前,事件检测F1值均能达到70%以上,然而,仍存在些许问题。下面将阐述相关问题及解决方案。问题一:语句中多个事件间联系较弱