面向缺乏标注数据领域的命名实体识别的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sosolinkweixiao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别的主要任务是识别出文本中的人名、地名、机构名等专有名称并加以归类。近年来,基于统计的方法已经成为解决命名实体识别任务的主流,其基本思想是通过对人工标注的语料进行统计分析,从中学习到相应的知识,然后构建标注器,并利用标注器来完成任务。得益于新闻领域的丰富语料,目前,命名实体识别在该领域已经取得了很好的性能,但是,在非新闻领域,特别是缺乏人工标注数据的领域,命名实体识别的性能仍然很差。针对这种现象,通常使用半监督的学习方法或者寻找更为通用的特征来提高模型在这些领域的性能。本文主要研究在命名实体识别任务中,如何使用条件随机场更好地学习到缺乏标注数据的领域的知识,从而提高模型在该领域的识别性能。首先,本文尝试将目标领域的部分标注数据融合到训练集中,通过部分标注数据来提升模型在目标领域的性能。特定的目标领域的人工标注数据不易获取,但是,部分标注数据的获取相对容易很多,并且,部分标注数据不仅可以携带目标领域的实体信息,还可以将一些通用的语法结构信息融入到其中,所以,融合部分标注数据共同训练模型,可以使模型具有更好的适用性。本文在少量的人工标注的小说语料上对该方法进行了测试,实验结果符合预期。然后,本文提出了一种改进条件随机场模型的方法,该方法使得条件随机场不仅能够使用传统的标量特征,同时,还可以使用实值特征,在此基础上,本文尝试将词向量作为特征应用到命名实体识别任务中。词向量是深度学习(Deep Learning)的产物,它可以被认为包含了一定的句法、语义特征,并且具有领域独立性,因而是一种很好的通用特征。实验结果表明,词向量特征的使用,使得条件随机场模型在特定目标领域中的性能得到了提升。最后,本文将条件随机场模型应用到Bootstrapping这种半监督学习框架下,同时使用部分标注数据和词向量来训练模型。实验结果表明,通过这种半监督的学习方法,使得模型的性能得到了进一步的提升。
其他文献
目的观察妇科腹腔镜手术后腹腔内注射罗哌卡因用于术后镇痛的可行性和效果。方法采用随机、安慰剂对照和双盲的研究方法,将120例择期行腹腔镜下妇科手术患者分为A、B两组,A、B
<正>1994年Kitano等[1]首次报道将腹腔镜技术应用于胃癌手术,从此腹腔镜胃癌手术以其特有的微创优势得到了迅猛的发展。近20多年的研究表明[2-5],腹腔镜胃癌手术已经成为早期
近日,宁夏隆德县绿鲜果蔬气调保鲜库项目正式签约。该项目占地8.32亩(0.555公顷),建筑面积1400m2,预计总投资500万元,一次性储藏果蔬能力为1000吨,年周转蔬菜4000吨以上。隆德县从2008
目的:在内外科护理学课程整合背景下实施理论实践一体化(以下简称"理实一体化")教学并探讨其对教育环境的影响,以期能够促进课程整合教学质量的提高。方法:在内外科护理学课
结合新疆G217独库改建公路项目,对掺配Evotherm和Sasowma温拌剂的温拌沥青混合料及热拌沥青混合料的高温、低温、水稳定性路用性能技术指标进行对比分析,得到了掺配Evotherm
在现代远程教育中抓好学生学习过程质量保证,是落实教育部“突出提高质量”的具体行动,是贯彻“科学发展观”的必然行为,是实施“科教兴国”、“人才强国”战略所决定的,也是落实
改革开放以后伴随着市场需求的不断增多,家政服务行业也就随之诞生了,而随之而来的产业调整与全球经济化,使得家政行业作为第三产业的新兴主力军具有极大的市场发展潜力。但
目的探讨抗原处理相关转运蛋白(TAP)基因多态性与原发性肝细胞癌发生的相关性。方法采用PCR-扩增抗拒突变系统(PCR-ARMS)技术分析76例原发性肝细胞癌患者及150例健康个体的TAP1、
近日,记者从中国地质环境监测院国家地下水监测工程专项办公室获悉,截至8月底,全国20个省份已完成国家地下水监测工程的钻探施工任务,完成总体任务90%以上,总计完成钻探进尺67.8万米
党的十四届六中全会指出:“社会主义社会是全面发展,全面进步的社会,社会主义现代化事业是物质文明和精神文明协调发展的事业.”可是,在一些地方“一手比较硬,一手比较软”的