论文部分内容阅读
命名实体识别对文本中固有名称、标识进行识别,是自然语言处理的基础任务之一,被广泛用于信息抽取、机器翻译、信息检索等多种任务中。命名实体识别在多种领域已经取得了较好的识别效果,但识别方法多根据领域文本特点设计,不具有普遍性与适应性。经过调研与分析,本文尝试使用基于条件随机场、自学习算法和主动学习算法相结合的方式,实现一个特定领域命名实体识别的通用方法,适用大多数特定领域。特定领域命名实体识别的通用方法实现过程中有两个难点。首先,使用条件随机场对特定领域进行命名实体识别时,根据领域特性选取的特征具有领域独立性,且选取特征的人员需要丰富的专业领域知识。其次,特定领域文本的大规模标注语料难以获取。针对上述两个难点,本文完成了以下工作:(1)基于词向量相似度特征的条件随机场训练。首先使用Word2vec进行词向量训练,通过词向量本身验证词向量包含丰富的语义和领域特性,以及不同语料与不同维度的词向量具有一定的差异性。然后选取任何领域都包含的通用统计特征,以及词向量相似度特征,以递增式学习的策略选择最小完备特征集合参与条件随机场的训练,使得模型具有适应性和领域性。本文在交通领域文本验证了该方法,实验结果表明,词向量相似度特征对提高识别效果有积极的作用。但由于标注样本过少,识别效果仍不理想。(2)在基于使用词向量相似度特征的条件随机场的基础上,采用自学习算法和主动学习算法相结合的方式进一步训练模型。迭代过程中,利用主动学习选取低置信度样本进行人工标注,克服了自学习算法选取过多与原训练样本效用相似数据的问题,以及因初始分类器错误导致标注错误累积的问题,同时利用自学习算法选取高置信度样本自行标注,克服主动学习算法不能有效利用富含信息量样本的问题。实验结果表明,结合上述两种方法的迭代训练相较于仅使用一种方法的训练能更有效地提升识别效果。并通过单一变量变化的方法验证了置信度阈值的选取对模型性能的影响以及人工标注量的影响。