论文部分内容阅读
跨语言相似度文本研究通常以跨语言词向量为基础,进而将词义特征应用于语义提取。目前,跨语言词嵌入空间的构建主要是通过不同语言空间的映射关系进行实现。但是,当不同语言空间中嵌入结构的相似程度较低时,会导致使用映射关系的效果欠佳。而在跨语言语义的研究中,由于语言的不同以及一词多义现象的影响,难以对跨语言句对特征进行提取和整合,而仅仅使用词级单特征提取语义的方法效果又较差。针对跨语言词表示问题,本文提出了一种基于伪语料的共享词嵌入空间构建方法(Shared Word Embedding Space Based On Pseudo Corpus,SEB-PC)。该方法使用GIZA++词对齐技术获得平行语料的词映射关系,通过映射关系提出了双语伪语料构建算法,结合Skip-gram模型的训练过程可以在双语词嵌入空间中拉近映射词对的距离。此外,本文在双语伪语料的基础上提出了一种伪多语语料构建算法,并构建了三语言共享词嵌入空间。与双语词嵌入空间相比,三语词嵌入空间可以抓住更多语言之间的词嵌入位置关系。最后,本文将SEB-PC方法在多种语言对上进行了词相似度实验和单词翻译实验,相比基于映射关系的嵌入方法,在远距离语言对的实验中取得了更加稳定的实验数值效果。针对跨语言语义特征提取问题,本文提出了一种基于相似矩阵的跨语言句对交互特征捕获模型(Cross Language Feature Capture Model On Similarity Matrix,FCM-SM)。该模型通过ELMo预训练过程减轻了一词多义现象的影响,相比单特征提取方法,该模型还加入了短语层级特征,在跨语言复述识别以及跨语言句子对齐的实验中,FCM-SM模型均优于单特征提取语义的方法以及其他的跨语言模型。本文所提出的SEB-PC方法以及FCM-SM模型分别用于解决相似度的研究中词表示问题以及语义特征提取问题,通过多种不同语言对的实验证明了方法和模型的有效性,在同系语言以及非同系语言的实验中进行了实验效果的比对,解决了如何跨越语言障碍进行相似度研究的问题。