基于多语言嵌入的跨语言文本相似度比对研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:netgood
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言相似度文本研究通常以跨语言词向量为基础,进而将词义特征应用于语义提取。目前,跨语言词嵌入空间的构建主要是通过不同语言空间的映射关系进行实现。但是,当不同语言空间中嵌入结构的相似程度较低时,会导致使用映射关系的效果欠佳。而在跨语言语义的研究中,由于语言的不同以及一词多义现象的影响,难以对跨语言句对特征进行提取和整合,而仅仅使用词级单特征提取语义的方法效果又较差。针对跨语言词表示问题,本文提出了一种基于伪语料的共享词嵌入空间构建方法(Shared Word Embedding Space Based On Pseudo Corpus,SEB-PC)。该方法使用GIZA++词对齐技术获得平行语料的词映射关系,通过映射关系提出了双语伪语料构建算法,结合Skip-gram模型的训练过程可以在双语词嵌入空间中拉近映射词对的距离。此外,本文在双语伪语料的基础上提出了一种伪多语语料构建算法,并构建了三语言共享词嵌入空间。与双语词嵌入空间相比,三语词嵌入空间可以抓住更多语言之间的词嵌入位置关系。最后,本文将SEB-PC方法在多种语言对上进行了词相似度实验和单词翻译实验,相比基于映射关系的嵌入方法,在远距离语言对的实验中取得了更加稳定的实验数值效果。针对跨语言语义特征提取问题,本文提出了一种基于相似矩阵的跨语言句对交互特征捕获模型(Cross Language Feature Capture Model On Similarity Matrix,FCM-SM)。该模型通过ELMo预训练过程减轻了一词多义现象的影响,相比单特征提取方法,该模型还加入了短语层级特征,在跨语言复述识别以及跨语言句子对齐的实验中,FCM-SM模型均优于单特征提取语义的方法以及其他的跨语言模型。本文所提出的SEB-PC方法以及FCM-SM模型分别用于解决相似度的研究中词表示问题以及语义特征提取问题,通过多种不同语言对的实验证明了方法和模型的有效性,在同系语言以及非同系语言的实验中进行了实验效果的比对,解决了如何跨越语言障碍进行相似度研究的问题。
其他文献
当前我国正在经历“大众创业、万众创新”的“双创”新浪潮,创业作为促进国民经济增长、提高民众创新能力、缓解严峻就业压力的“利器”,自然而然受到社会各界的密切关注。大学生作为国家未来发展的青年骨干力量,如何通过高等教育提高其创新创业能力,对我国发展成“创新型国家”具有重大的现实意义。创业意向是预测创业行为的最好指标,研究通过何种创业教育方式可以有针对性地提高大学生的创业意向显然尤为重要。而高等教育的主
学位
学位
随着人们环保意识的增强及资源的日益枯竭,以可再生、可降解生物质资源为原料制备的绿色复合材料受到了科学界和工业界的广泛关注。丝瓜络纤维作为一种资源丰富、结构优良的天然植物纤维材料,在填充材料领域具有很大的应用潜力。本文以废弃的丝瓜络边角料为基体,绿色环保的EVA树脂和低熔点聚酯纤维为胶黏剂,采用工艺简洁的低温热压法制备出了一种绿色环保,质地均匀且性能良好的丝瓜络复合填充材料,并对其压缩力学性能、声学
家族与姻族文化是清代词派发展的重要源泉:柳洲词派的运行源自钱、魏、曹、柯四大家族的合力;阳羡词派品格的形成源自陈维崧家族文化的濡染;吴中词派的持续多赖潘氏家族文化的影响;常州张氏家族文化不惟催生了常州词派,而且成为整个常州地域文化的重要组成部分;文化家族的联姻更为诸词派的壮大提供了广阔的良性空间。
学位
学位
学位
随着多核处理器在现在计算机设备中的流行,软件中使用多线程和并发程序的程度也随之增加。多线程程序给我们带来的好处是程序的运行效率得到了很大的提升,但是由于多线程程序的不确定性,在程序运行过程中难免会出现数据竞争、原子性违背等并发问题,这些问题不容易被发现和修复,一旦在生产运行中暴露了,可能会带来极大的损失。由于大部分的并发问题根本原因是数据竞争,因此对于数据竞争的检测是十分必要的。针对以上问题,本文
学位