论文部分内容阅读
针对当前传统词向量模型只能捕捉词层面的语义信息,忽视了单词内部语义信息以及无法有效区分反义词的不足,本文凝练出两个科学问题:1、如何将单词形态学信息融入词向量训练过程中,以此提升词向量的语义相似性以及形态相似性;2、如何提升词向量区分反义词的能力。针对科学问题1,本文以英文为例,将英文单词中的前缀、后缀、词根等形态学信息融入到词向量训练过程中,并提出两种隐式词向量提升模型:均衡模型和相似度模型。与相关工作对比,本文提出的模型具有较大不同,主要体现在:相关工作普遍直接利用单词的词素信息去提升词向量,而本文则利用词素在字典中的解释对单词进行建模。该方法的优点在于其不但可以很好的提高单词的语义相似性,同时能很大程度上提升单词的形态相似性。本文在词意关联检测、句法类比和N近邻单词实验上对均衡模型和相似度模型进行了测试。实验结果表明本文提出的隐式模型在所有任务上均取得最优结果。参数分析结果表明:在隐式模型的词向量空间中,形态相似的单词不但距离彼此较近,而且也都分布在其词素意义周边。此外,隐式模型具有补充语义的能力,其在小文本上取得了和基准模型在大文本上相当的表现。因此,隐式模型在处理资源匮乏的语言时具有优势。针对科学问题2,本文基于外部语义字典,提出一种词向量纠正模型LWET。该模型利用字典中单词的近义关系和反义关系来调整词向量在空间中的分布,使得词向量区分反义词的能力得到增强。模型的主要目标是使近义词离目标词最近,反义词离目标词最远,无关词位于近义词和反义词之间充当间隔。为降低模型求解的复杂度,本文提出两种近似算法,包括正采样算法和类层次softmax算法。其中正采样算法时间复杂度最低,类层次softmax算法复杂度略高,但效果更好。本文在反义词识别、正、反义词消歧和词意关联检测实验上对LWET进行了测试。其中,反义词识别和正、反义词消歧主要用于检测词向量区分反义词的能力,实验结果表明经由LWET调整,词向量能有效区分单词间的反义关系。词意关联检测实验结果显示,LWET在调整词向量空间分布时,不会对原有词向量的语义结构造成破坏。