论文部分内容阅读
命名实体识别(NER:Named Entity Recognition)作为自然语言处理中的基础性问题得到了广泛研究,基于统计学习的NER技术已取得了较好的识别性能。但是仍存在一些问题,其中之一是模型对异质语料的适应性较差,即当测试数据与训练模型的数据异质时,模型的性能较差。本文在基于条件随机场(CRF, Conditional Random Field)模型进行汉语NER的基础上.,重点研究分别加入由隐马尔科夫模型(HMM:Hidden Markov Model)获得的无监督标注特征和由神经网络获得的字向量表示特征时,模型在中文异质语料上的适应性变化。具体包含以下三方面工作:1.采用有标注数据训练实现了一个基于CRF模型的汉语NER系统,系统在与训练数据同质的测试语料上的NER性能达到了应用任务的要求。该模型作为后续适应性研究的基础CRF模型。2.实现了一个结合基础CRF模型与HMM特征的半监督NER系统。该系统首先利用无标注数据训练HMM获得无监督类别特征,之后加入这些特征重新训练基础CRF模型,获得一个半监督NER系统。论文重点研究了训练HMM的无标注数据与训练基础CRF模型的有标注数据在领域、语言风格存在差异时,半监督NER系统的表现,实验表明,当二者是同语言风格数据时,基于HMM的无监督特征有助于半监督NER系统获得较好的跨领域适应性,而在两类数据具有不同风格时,半监督系统没有跨领域适应性。这一结果丰富了当前模型跨领域适应性研究的内容。3.实现了一个结合基础CRF模型与汉字向量表示特征的半监督NER系统。该系统将神经网络基于无标注数据训练获得的汉字表示作为特征加入基础CRF模型重新训练,获得一个半监督NER系统。在论文中重点研究了训练与测试数据在领域、语言风格存在差异时,半监督NER系统的表现,并与结合HMM标注特征的半监督模型进行了对比。实验结果表明,直接拼接字向量形成的特征不能提升模型的跨领域或跨风格适应性,但基于字向量的余弦相似度特征相比HMM标注特征而言能明显提升模型跨语言风格适应性。