【摘 要】
:
随着互联网的飞速发展,用户对网络的信息需求越来越多,他们不仅想得到单语种的检索信息,而且也想得到其他语种的检索信息,因此,跨语言信息检索受到了众多研究人员的关注,是当
论文部分内容阅读
随着互联网的飞速发展,用户对网络的信息需求越来越多,他们不仅想得到单语种的检索信息,而且也想得到其他语种的检索信息,因此,跨语言信息检索受到了众多研究人员的关注,是当前信息检索的研究热点之一。跨语言检索系统可以将用户输入的一种语言的查询在另一种语言或者多种语言的文档中检索相关信息,这有利于许多不了解外语的搜索引擎用户检索出更丰富的结果,获得多语言的信息资料,从而满足用户的信息需求。跨语言信息检索的研究具有重要意义:一方面,跨语言信息检索技术的出现可以在一定程度上解决用户对多语种的信息需求问题;另一方面,跨语言检索是信息检索的重要组成部分,对跨语言信息检索进行研究是丰富和完善信息检索理论体系的需要。目前,深度学习技术已经在单语言检索中取得了良好的效果,但在跨语言信息检索中的应用还不多,原因之一便是在跨语言信息检索中没有合适的数据可以用于训练神经检索模型。为了更好的实现跨语言信息检索,我们提出了一种简单又灵活的数据集构建方案。我们的英--中双语数据集是由维基百科上的数据构建而成的,它支持英文查询和中文文档之间的跨语言信息检索模型的训练和评估。我们的数据集包含三个部分,分别是英文查询、中文文档和文档之间的相关判断。根据中文文档中的文章与英文查询所在的文章的相关程度,我们将文档的相关级别分为三种,分别是最相关文档、次相关文档和不相关文档。为了验证上述数据集的可用性,我们提出了一种基于BiLSTM和注意力机制的神经检索模型用于跨语言信息检索。与传统的跨语言检索方法不同,基于BiLSTM和注意力机制的神经检索模型无需显式的翻译过程:它能够将源语言和目标语言的文本编码到同一个跨语言语义空间,然后基于编码好的文本向量进行相关度计算。实验结果表明,我们基于维基百科构建的数据集可以支撑该模型进行成功的训练与测试,该模型在测试集上表现出优于基准模型的性能。
其他文献
在过去的几十年里,由于π共轭有机发光材料在有机发光二极管、有机固体激光器、有机传感器以及生物成像等方面存在广泛的应用价值,已经引起了人们的高度关注。为了获得性能良
我国淡水资源极为匮乏,高效准确地探测地下可利用的淡水资源是解决水资源匮乏的有效途径。磁共振探测地下水方法是唯一针对地下水直接探测的地球物理方法,通过非侵入的探测方
问题解决一直是教育研究的热点。我国数学课程标准也将培养学生的问题解决能力作为课程改革的目标之一。本文聚焦数学问题解决,探究问题呈现形式对学生数学问题解决的影响。
随着软件行业的不断发展,以及信息化时代软件应用的普及,软件渗透到日益广阔的业务和应用领域,其架构复杂度及代码的容量也达到了让开发人员难以理解和管理的程度,这一趋势使
在数字航测相机取代传统模拟航测相机成为摄影测量数据获取主要方式的新形势下,研究大面阵数字航测影像快速处理技术,对满足摄影数据快速应用需求具有十分重要的理论和现实意
近年来城镇化水平不断提高,特色小城镇建设蓬勃发展,而特色产业发展是特色小城镇发展立镇之要。文章从国内外文献阅读入手,并论述了基本概念及相关理论,分析了日照市小城镇特色产业现状。进而构建了小城镇特色产业发展水平评价指标体系,以2017年特色产业镇为数据样本,对其中日照市小城镇特色产业发展水平与其他特色产业镇进行对比评价。为更深入研究日照市小城镇特色产业发展,进而以中楼镇为案例,借助田野调查方式获得相
本论文基于氨基酸骨架合成了两类相转移催化剂和部分文献中已知的催化剂,并对氨基砜与硝基甲苯的不对称nitro-Mannich反应和靛红酮亚胺与硝基甲烷的不对称nitro-Mannich反应
为了进一步研究拓扑空间中次仿紧性和分离性,本文利用更为一般的推广型开集Es集研究了一般拓扑空间中Es-次仿紧性,利用Es远域分别研究了 LF拓扑空间中EsT分离性、次尽EsTi(i
近年来,随着复杂网络理论逐渐渗透到众多不同的研究领域中,利用复杂网络理论知识来研究电力网络的非线性动力学行为已经成为一个研究热点。本文结合电力网络的非线性动力学方
酶作为一种高效催化剂,在精细化学品合成中有着重要应用价值。通常,酶在水环境中能保持高的催化活性,而大多数有机反应物难溶于水,因此酶催化反应常在有机/水两相体系中进行