论文部分内容阅读
Word Embedding使用低维稠密向量表示词,通过向量计算反映词间关系,被广泛应用于自然语言处理任务。由于Word Embedding是自然语言处理领域的研究热点,因此促进了研究者对Word Embedding的研究,同时也出现了两方面的问题:(1)如何选择合适的算法生成Word Embedding;(2)决定Word Embedding质量的因素是什么,如何更好的提高Word Embedding质量。针对选择合适算法构建Word Embedding的问题,本文研究并构建了基于矩阵分解的Word Embedding方法,在词语相似性任务中不同窗口下,将构建的模型与Skip-gram模型和GloVe模型进行了比较。结果表明,在构建基于矩阵分解模型的过程中,相似度方法使用余弦相似度优于Hellinger距离,权重方法使用条件概率优于词频,并且发现降维前相似度矩阵质量与Word Embedding质量呈线性相关。针对决定Word Embedding质量的因素是什么,如何更好的提高Word Embedding质量的问题,本文提出了一种基于中心化相似度矩阵的Word Embedding方法。该方法使得相似词的相似程度相对增强,不相似词的相似程度相对减弱。在词语相似性任务中验证了该方法的有效性。结果表明,中心化相似度矩阵的方法能够提升Word Embedding的质量,使其达到甚至超过Skip-gram模型水平。中心化能够提升降维前相似度矩阵质量,进而提高Word Embedding质量。本文实现了基于中心化相似度矩阵的Word Embedding方法系统,设置不同参数对语料进行训练。本文将训练出的Word Embedding应用于中文命名实体识别中,结果表明中心化方法生成的Word Embedding能有效利用上下文环境,从而提升识别效果。