【摘 要】
:
文章重新排序任务旨在根据给定问题对多篇候选文章进行排序,该任务在许多自然语言处理应用中发挥了关键作用,例如用于开放域问答的文章检索模块。由于目前的文章重新排序研究聚焦于单语言问题,因此对于跨语言文章重新排序任务存在定义不全的问题。此外,由于跨语言文章重新排序任务自身特性,其中又存在着诸多困难与挑战:问题和文章使用不同语言的情况;缺少用于模型训练和评估的标注数据;模型倾向于选择和问题相同语言的文章;
论文部分内容阅读
文章重新排序任务旨在根据给定问题对多篇候选文章进行排序,该任务在许多自然语言处理应用中发挥了关键作用,例如用于开放域问答的文章检索模块。由于目前的文章重新排序研究聚焦于单语言问题,因此对于跨语言文章重新排序任务存在定义不全的问题。此外,由于跨语言文章重新排序任务自身特性,其中又存在着诸多困难与挑战:问题和文章使用不同语言的情况;缺少用于模型训练和评估的标注数据;模型倾向于选择和问题相同语言的文章;模型在高资源语言和低资源语言之间存在性能差异。针对上述困难与挑战,本文提出了相应的解决办法,主要研究内容及贡献如下:(1)首次探索了广义的跨语言文章重新排序任务并进行形式化定义。该任务旨在根据给定问题对多种语言的多篇候选文章进行重新排序。任务具有以下特性:a)问题并不局限于某一种特定语言;b)每个问题的候选文章中至少有一部分使用和问题不同的语言。(2)提出了面向有限标记样本的跨语言文章重新排序方法。首先,本文提出跨语言复述识别任务作为扩展预训练,以利用大规模无监督平行语料来对齐不同语言的文本;其次,本文提出了三种有效的训练策略,通过利用现有英语数据集及其翻译,缓解了标注数据稀缺的问题;最后,本文提出了一种数据增强方法,在不使用额外数据的情况下,利用有限的目标任务数据进行数据扩增,以此提高模型性能。(3)提出了基于知识蒸馏和对抗学习的跨语言文章重新排序方法。首先,本文利用知识蒸馏方法,将高资源语言上的知识迁移到低资源语言,从而缩小模型在不同语言之间的性能差距;其次,本文通过语言判别任务判断问题和文章是否使用同种语言,与此同时,利用对抗训练促使模型无法正确识别文本语言,从而对齐不同语言的嵌入分布。综上所述,本文首次探索了跨语言文章重新排序任务,提出了面向有限标记样本的跨语言文章重新排序模型,并利用知识蒸馏和对抗学习解决了跨语言文章重新排序中存在的问题,具有理论意义和实际意义。
其他文献
在灿烂辉煌的中华文明宝库中,中国古代的织造工艺是一颗璀璨的珍珠,中国织造的大量丝绸产品远销到国外,成为海外各国了解中国文化、学习中国古代织造技术的一扇窗,中国古代的织造工艺发展也对世界纺织工业的发展起到了重要的推动作用。在当前全面复兴中国传统文化以及“一带一路”的重大国家战略背景下,深入研究中国古代织造工艺具有深刻的社会意义。本文以中国古代织造工艺中的花本工艺作为研究对象,在大量搜集以往文献资料,
弓箭的发明是人类文明进化史上一项重要的标志性成果,弓箭文化更是中华传统文化的组成部分。随着弓箭技术被大量地应用于生产和生活中,相关的配套器材如装置箭体的工具箭匣、箭袋等在先秦时代便应运而生。中国古代盛矢之器同弓箭一起渗透到军事、经济、政治、礼仪、科技、民俗、教育等领域,对中国各民族影响深远。可以说,中国古代盛矢之器也是中国射艺文化中的一部分,却鲜有人关注。本文以中国古代盛矢之器为研究对象,从大量原
在高超声速飞行器的发展历程中,激波与边界层相互作用问题一直是研究的重点领域。目前大多数研究中主要关注的是激波与平板边界层相互作用,但在实际的高超声速飞行器内外表面,普遍存在着各类曲面。曲率对湍流边界层的发展、稳定等都存在着重要影响,对激波与边界层相互作用的影响则更加复杂。因此,对流场中各类激波与曲面边界层相互作用机理的深入研究与准确认识对当前高超声速推进系统及飞行器的进一步优化有着极其重要的意义。
昌邑印染业的起源得益于当地清末民初丝绸贸易的繁荣,于新中国成立后才开始规模化发展,虽起步较晚,但发展较快;虽历经曲折,但克服万难。尤其在片面强调重工业建设的“大跃进”时期,多家个体手工印染业户经营困难甚至关门歇业,昌邑印染业在新中国成立后迎来了第一个低谷期。尽管如此,凭借当地的丝织生产优势,许多私营染、炼商号仍努力经营,印染业规模由新中国成立初期的十几家商户发展至今已有上百家企业,并跻身于“中国印
本文以超燃冲压发动机中的液体横向射流为研究对象,采用理论、试验与仿真相结合的方法,建立了超声速气流中的连续液柱CLC(Continuous Liquid Column)实体模型,提出了可快速预测超声速气流中液体横向射流喷雾特性的实体-粒子耦合数值计算方法。首先,对超声速气流中液体射流一次破碎进行了研究。分析了椭圆孔喷嘴长短轴之比对液体射流破碎机理、空间分布和气相流场特征的影响。结果表明:喷嘴长短轴
时尚杂志作为传播消费主义思想最为活跃的媒介,其发展也体现了政治、经济的发展与社会文化的变迁,对其封面人物这一视觉符号的变迁研究可窥见其消费主义的本质及变化的具体过程,同时有助于丰富关于封面人物的理论研究。本文选取《时尚芭莎》作为个案,对其2005—2021年间共272期刊物,308个封面,共371个封面人物(不同刊期会重复,重复后累计统计)进行了统计分析。主要通过内容分析法对《时尚芭莎》的封面人物
本文针对超声速气流中后向台阶耦合壁面喷注诱导的反应流场开展大涡模拟研究,重点分析了大尺度回流对混合燃烧过程的影响。首先模拟了超声速气流中壁面垂直喷注射流与台阶分离流动相互作用下的流场结构,对比了不同高度台阶对燃料与空气掺混特性的影响,并评估了串/并联效应下的混合性能;进而揭示了耦合台阶的射流抬举火焰燃烧特性和稳定机制,并阐明了射流喷注位置和湍流脉动的影响;最后发展了一种高效的自点火建库查表方法。基
利用光机械(optomechanics)腔进行辐射、声学和力学探测是纳米光子学领域中近十年来十分热门的基础研究,如采用悬空反射镜探测振动的大型激光干涉引力波探测仪LIGO和VIRGO就是光机运动探测的典型范例。同时,利用人工超表面(metasurface),人们可以在亚波长尺度上灵活地调制光的振幅、频率、偏振和相位,一系列突破性甚至颠覆性的光学理论和应用由此诞生。其中,利用超表面的各种共振增强效应
在涡轮发动机及高超声速组合推进系统中,为避免摩擦,旋转机械和固定部件之间存在一定的间隙,在间隙两侧压比的影响下,会形成泄漏流动。泄漏流动对发动机的推力性能和安全性能产生很大的影响。一方面泄漏流动会与通道主流之间相互作用导致主流动能的降低;另一方面,泄漏流动对叶片基本不做功,导致了涡轮叶栅气动性能的降低。随着发动机循环效率的提高,间隙两侧的压比逐渐提高,间隙内的流动逐渐由亚声速流动过渡到跨声速流动,
德国大哲学家莱布尼茨的二进制思想是其庞大思想体系中的一个并不十分显著的构成要素。但是,此思想对后世的众多研究领域都有非常重要的引领性乃至实质性影响。在哲学与逻辑学领域,万事万物的基本状态,如有或无、生存或死亡、开启与关闭、好与坏等,都可以用1和0这两个二进制概念来进行对应并加以表达。此思想直接被运用到电子电路的逻辑之中,并在当代计算机科学中发挥了基础性作用。莱布尼茨发明的二进制不仅给计算机语言提供