【摘 要】
:
平行语料库是机器翻译、跨语言检索和跨语言自动问答等自然语言处理(Natural Language Processing,NLP)任务的核心基础资源。平行语料库的规模和质量决定了这些系统的性能上
论文部分内容阅读
平行语料库是机器翻译、跨语言检索和跨语言自动问答等自然语言处理(Natural Language Processing,NLP)任务的核心基础资源。平行语料库的规模和质量决定了这些系统的性能上限。然而人工构建大规模的平行语料库既昂贵又耗时。可喜的是,网络中(维基百科、多语言字幕网站等)存在海量蕴含部分平行资源的可比语料,若能从其中自动检测并获取平行语料将极大地丰富平行数据的来源,有效提升机器翻译等自然语言处理系统的性能。因此,本文的研究具有重要的科学意义和应用价值。近年来,研究者们使用基于神经网络的方法研究新的高效的句子对齐方法。基本思路都为通过神经网络学习句子的向量表示,然后比较向量间的相似度判断是否为平行句对。然而,通过神经网络生成的句子的向量表示的维度是固定的,不能充分表示句子的信息,比如句子长度的信息等。另一方面,在比较向量相似度时,使用余弦相似度或曼哈顿距离等单一的度量方式未能充分挖掘向量之间的相似关系。本文提出了一种基于跨语言词向量的两级句子对齐方法,该方法可以从不同噪音分布的可比语料库中抽取平行句对。具体来说,两级是指词语级别和句子级别。在词语级别上,我们巧妙地结合了余弦相似性和曼哈顿距离的优点,即同时考虑向量间的角度信息和向量间的绝对距离,提高词语相似性度量的性能。在句子层面上,基于所提出的词相似度度量方法,我们提出了一种基于聚合方法的句子相似度度量,结合词语和句子两种粒度的信息来计算句子间的相似度。为了进一步改进这项技术,我们采用基于边距的评分步骤来挖掘更多的潜在平行句对。为了评估本文方法的有效性,我们在三个任务上进行了实验。首先,我们评估了我们的句子相似度量方法在不同参数配置下的有效性。其次,将该方法应用于不同噪音分布的可比语料,对句子对齐任务的效果进行评估。最后,使用句子对齐方法过滤大规模语料,并验证过滤后的语料对下游机器翻译任务的影响。实验结果表明,本文方法能够显著提高句子相似度的度量效果,并且能够在不同噪声条件下从可比语料库中采集高质量的平行数据,而且相比于具有竞争力的基线系统,本文方法也能显著改善机器翻译的性能。
其他文献
由于现代控制理论受制于系统的模型复杂程度与模型假设的可行性,无法对实际生产应用中越来越复杂的控制对象产生良好的镇定效果。系统复杂度提高的同时,由于计算机科学的发展,也使得这些复杂系统在生产运行中产生了大量的数据,这些数据相比较基于机理建立的系统模型包含了更多的被控对象动态信息。直接利用这些测量数据,跳过建模过程,即利用数据驱动(Data-Driven Control)的方式对复杂系统设计出满足性能
混凝土材料的损伤破坏,本质上是混凝土在制作过程中搅拌、振捣不充分使材料内部产生微损伤。微损伤在受到外力荷载作用下不断聚集、发展、贯穿直至形成宏观裂纹。借用无损检测技术对混凝土材料内部微缺陷进行表述,分析材料损伤演化的规律,对材料损伤区域类型给予划分,并充分认识混凝土结构在不同骨料粒径情况下的破坏过程,可为正确预测混凝土结构使用寿命和结构可靠性提供依据。本文采用声发射技术,对含不同骨料粒径混凝土材料
随着移动互联网技术的发展和公民意识的觉醒,政务APP作为新型电子政务模式,于近年来出现并快速发展。相较于政府网站、政务微博和政务微信,政务APP能有效融信息发布、公共服
由于耐药性细菌在世界范围内的广泛播散,传统类型的抗生素已经不能很好地应对因耐药菌感染而导致的公共健康威胁。在这种条件下,纳米材料作为一种新兴的抗菌物质进入了人们的视野。纳米颗粒的优势一方面在于可以通过某些特殊的靶向机制向感染部位富集,并发挥一个类似于“药物储库”的作用,在实现局部高浓度给药的同时,避免对周围正常组织的毒害。另一方面,由于纳米颗粒的抗菌性能主要是基于与细菌细胞壁的直接接触,而不需要穿
单核细胞增生李斯特菌(Listeria monocytogenes,Lm)是一种重要的食源性致病菌,在自然界广泛分布,可以污染食品引起食物中毒,引起人类李斯特菌病,致死率可高达30%。Lm在食品加
当前司法实践中,对于父母处分未成年子女财产行为效力的认定,呈现出有效与无效两种观点。基于这类案件的特点,人民法院在审理这类案件时,除立足于《民法典》第143条的规定之外,还侧重于对被处分财产所有权主体、父母处分未成年子女财产时的主观目的、《民法典》第35条第1款的规范性质、父母不当处分未成年子女财产行为的定性等因素的分析。在此基础上,可归纳出父母处分未成年子女财产行为效力认定的思路——首先,查明被
近二十年来,基于MOF材料的多相催化剂引起了大量关注。在早期,MOF催化剂主要专注于精细化学品的合成。近几年,用于固-气相催化的MOF基催化剂也已经受到广泛研究。CuO-CeO_2作为一种价格低廉且具有优越的储放氧及CO吸附能力的非贵金属催化剂,在低温催化CO氧化方面表现出良好的性能。本课题将一种高比表面积、高稳定性的Zr基MOF材料UiO-66作为载体,采用浸渍法负载传统CuO-CeO_2复合催
民办高等教育是我国高等教育的重要组成部分。据统计,2018年我国共有民办普通高等学校750所,在校生649.60万人。民办高校在增加高等教育机会供给、满足人民群众多样性教育需
Al-Zr合金的时效析出相Al_3Zr在高温下动力学稳定,具有较好的耐热性能、析出强化性能及抑制再结晶的能力。然而Zr原子在Al基体中的扩散速率较低,时效过程中难以充分析出,固溶的Zr原子明显地降低了Al合金的电导率;同时,Al-Zr合金的时效析出相Al_3Zr在基体中分布不均匀,且时效后L1_2结构Al_3Zr数量密度较低,影响了Al-Zr合金高温下抗蠕变性能和再结晶性能。添加微合金化元素Yb是
近些年来,波浪能利用已经成为全球范围的研究热点,波浪能发电装置种类繁多,层出不穷,各国学者都在积极探索高效转换能量的波浪装置和装置的分析方法。本文以海蘑菇波能转换系