论文部分内容阅读
命名实体识别的主要任务是识别出文本中的人名、地名、机构名等专有名称并加以归类。近年来,基于统计的方法已经成为解决命名实体识别任务的主流,其基本思想是通过对人工标注的语料进行统计分析,从中学习到相应的知识,然后构建标注器,并利用标注器来完成任务。得益于新闻领域的丰富语料,目前,命名实体识别在该领域已经取得了很好的性能,但是,在非新闻领域,特别是缺乏人工标注数据的领域,命名实体识别的性能仍然很差。针对这种现象,通常使用半监督的学习方法或者寻找更为通用的特征来提高模型在这些领域的性能。本文主要研究在命名实体识别任务中,如何使用条件随机场更好地学习到缺乏标注数据的领域的知识,从而提高模型在该领域的识别性能。首先,本文尝试将目标领域的部分标注数据融合到训练集中,通过部分标注数据来提升模型在目标领域的性能。特定的目标领域的人工标注数据不易获取,但是,部分标注数据的获取相对容易很多,并且,部分标注数据不仅可以携带目标领域的实体信息,还可以将一些通用的语法结构信息融入到其中,所以,融合部分标注数据共同训练模型,可以使模型具有更好的适用性。本文在少量的人工标注的小说语料上对该方法进行了测试,实验结果符合预期。然后,本文提出了一种改进条件随机场模型的方法,该方法使得条件随机场不仅能够使用传统的标量特征,同时,还可以使用实值特征,在此基础上,本文尝试将词向量作为特征应用到命名实体识别任务中。词向量是深度学习(Deep Learning)的产物,它可以被认为包含了一定的句法、语义特征,并且具有领域独立性,因而是一种很好的通用特征。实验结果表明,词向量特征的使用,使得条件随机场模型在特定目标领域中的性能得到了提升。最后,本文将条件随机场模型应用到Bootstrapping这种半监督学习框架下,同时使用部分标注数据和词向量来训练模型。实验结果表明,通过这种半监督的学习方法,使得模型的性能得到了进一步的提升。