跨领域、跨风格命名实体识别技术研究

被引量 : 7次 | 上传用户:sunj2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
命名实体识别(NER:Named Entity Recognition)作为自然语言处理中的基础性问题得到了广泛研究,基于统计学习的NER技术已取得了较好的识别性能。但是仍存在一些问题,其中之一是模型对异质语料的适应性较差,即当测试数据与训练模型的数据异质时,模型的性能较差。本文在基于条件随机场(CRF, Conditional Random Field)模型进行汉语NER的基础上.,重点研究分别加入由隐马尔科夫模型(HMM:Hidden Markov Model)获得的无监督标注特征和由神经网络获得的字向量表示特征时,模型在中文异质语料上的适应性变化。具体包含以下三方面工作:1.采用有标注数据训练实现了一个基于CRF模型的汉语NER系统,系统在与训练数据同质的测试语料上的NER性能达到了应用任务的要求。该模型作为后续适应性研究的基础CRF模型。2.实现了一个结合基础CRF模型与HMM特征的半监督NER系统。该系统首先利用无标注数据训练HMM获得无监督类别特征,之后加入这些特征重新训练基础CRF模型,获得一个半监督NER系统。论文重点研究了训练HMM的无标注数据与训练基础CRF模型的有标注数据在领域、语言风格存在差异时,半监督NER系统的表现,实验表明,当二者是同语言风格数据时,基于HMM的无监督特征有助于半监督NER系统获得较好的跨领域适应性,而在两类数据具有不同风格时,半监督系统没有跨领域适应性。这一结果丰富了当前模型跨领域适应性研究的内容。3.实现了一个结合基础CRF模型与汉字向量表示特征的半监督NER系统。该系统将神经网络基于无标注数据训练获得的汉字表示作为特征加入基础CRF模型重新训练,获得一个半监督NER系统。在论文中重点研究了训练与测试数据在领域、语言风格存在差异时,半监督NER系统的表现,并与结合HMM标注特征的半监督模型进行了对比。实验结果表明,直接拼接字向量形成的特征不能提升模型的跨领域或跨风格适应性,但基于字向量的余弦相似度特征相比HMM标注特征而言能明显提升模型跨语言风格适应性。
其他文献
为了进一步提高产科质量,降低妇儿发病率和死亡率,我县于1980年开始,在全县范围内全面推行围产期保健,实行孕产妇和儿童系统管理,十年来已取得一定成效。现简述一下我县开展
本文讨论了药物临床前研究与实验动物和动物模型之间的关系,探讨了实验动物和动物模型在新药研发过程中实现转化研究的要求和条件。讨论了实验动物质量对新药研发的影响,分析
交通运输作为我国经济建设中的重点投资行业,道路桥梁工程的质量安全受到了社会各界广泛的关注。本文主要分析了灌砂法、环刀法、探地雷达、动态载荷法四种方法对道路桥梁路
近日,中宣部和教育部连续下发了《关于进一步加强和改进高等学校思想政治理论课的意见》以及《实施方案》,规定了高校思想政治理论课新的课程设置和实施步骤,表明作为思想政
随着城市规模的不断扩大,市政道路工程也进入到快速发展的阶段。市政道路工程的施工质量,不仅关系着道路的使用寿命,而且还关系着行人和车辆的安全性。因此,必须采取有效的试
<正> 近年来,我们针对引起反流性食管炎的机理,采取了以耳穴压丸配以口服思密达粉治疗方法,收到了满意的效果,现报道如下。1 临床资料 1.1 一般资料 本组24例,其中男16例,女8
当前应用本科院校会计类课程普遍较多,而会计课程的专业核心课是基础会计,中级财务会计和高级财务会计。核心课中最重要的课程是中级财务会计课程。该课程有着承上启下的作用
根据生产管理系统信息化的设备树,提出一种采用拓朴图表示设备树系统内各要素间关系的方法。由此方法可建立一个系统化的设备树系统关系图。系统关系图可以较直观地表示设备
本文在对20多年来汉语作为第二语言教学的语法偏误研究成果作出统计和梳理的基础上,对这一领域的研究状况做了一个综述。指出了这一研究领域呈现的特点以及存在的问题,并对今
<正> 我院自1999年1月-2002年10月收治22例患者不同原因所致颅内感染经腰蛛网膜下腔置管持续引流并鞘内注入抗生素,疗效较好,现总结如下。1临床资料与方法 1.1 一般资料 男性