论文部分内容阅读
词义消歧(Word Sense Disambiguation)是指釆用一定的方法或算法,在给定的上下文中自动确定歧义词的正确词义的任务。词义消歧是自然语言处理技术中一项基础性的技术,对于文本挖掘、自动文摘、机器翻译、以及信息检索等众多自然语言处理技术的性能提高有着重要影响。因此提高词义消歧的性能也成为人们的迫切需求。Lesk算法是最早的释义重叠法,也是经典的词义消歧算法之一。近年来,许多研究者提出了基于Lesk算法的词义消歧方法。但是,众多研究在使用上下文信息时,忽略了上下文中歧义词周围的词对消歧的影响。Lesk算法通过计算上下文与词典中歧义词的各个义项之间词汇重叠的个数来得到歧义词的最佳含义,但歧义词在词典中的义项,通常比较简短,使得词汇重叠的个数较小,甚至没有重叠。针对这个问题,我们通过使用向量表示上下文以及义项来解决:计算上下文以及义项的相似度,取相似度最高的义项为歧义词的消歧结果。在此基础之上考虑到,歧义词中各个义项的使用频率是不同的。因此,本文考虑了上下文中的词与歧义词之间的距离对词义消歧的影响以及各个义项的使用分布频率对词义消歧的影响。本文的研究内容主要由以下几个部分组成:建立了一种基于Word2vec的词义消歧的基本框架。通过维基百科语料集进行了词向量的训练,基于训练的词向量实现了扁平表示的上下文向量和义项向量的生成,并结合基于WordNet获取的义项分布频率建立义项综合分值计算模型。基于Senseval-3数据集上的扩展实验表明本文消歧方法的有效性。建立了一种融合了距离权重以及义项分布频率的词义消歧方法。由于扁平表示法生成的词向量并未考虑上下文中的词与歧义词之间的距离对词义消歧的影响。本文在考虑词与歧义词之间的距离的影响时,进一步融合了上下文中的词与歧义词的距离权重,研究了基于高斯核函数、拉普拉斯核函数、柯西核函数这三种权重函数生成的上下文向量对消歧效果的影响。此外,除Word2vec生成的词向量之外,还研究了Glove生成的词向量对消歧效果的影响。实验结果表明,高斯核函数在捕捉上下文的距离权值表现较好且基于Glove训练的词向量具有更好的消歧效果。