基于共享语义空间的无监督双语词典抽取

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:Crownless
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无监督双语词典抽取(Unsupervised Bilingual Lexicon Induction)旨在不借助任何跨语言知识的条件下从两种语言的单语语料中获取双语翻译词典。成功的解决这个问题将会为资源匮乏的语言和很多跨语言自然语言处理任务带来巨大的收益。近年来,人们在无监督双语词典抽取上的研究取得了巨大的进步,并已成功将获取到的无监督双语词典应用到许多下游任务中。然而现有的方法并不是完美的,存在如下两个不足:(1)现有模型在理论上不是最优的,其性能也不够理想;(2)在真实的场景下鲁棒性不足,尤其是差异较大的语言对中准确率较低。为了解决以上问题,本文主要进行了以下两方面的工作,用来获取更高质量的无监督双语词典。第一,本文提出了一种基于共享语义空间的无监督双语词典抽取模型。相比于现有的方法,本模型不是学习一个从源语言词向量空间到目标语言词向量空间的单向线性变换,而是为源语言和目标语言学习一个共享的语义空间,再利用这个空间进行无监督双语词典抽取。理论上来说,基于共享语义空间的模型相比于现有模型表达能力更强。因此在这个空间中,两个语言的词向量可以更好的匹配,从而更有利于双语词典抽取。通过在8个语言对上进行广泛实验,本文证明基于共享语义空间的方法明显优于现有的对抗方法,甚至可以在多个语言对上达到当下最优的准确率。第二,本文在所提的基于共享语义空间模型的基础上,针对影响无监督双语词典抽取性能的其他因素进行了系统的考察。现有的工作尽管对这些因素有所提及,但缺乏系统的研究。通过对这些因素进行实验与分析,本文进一步优化了基于共享语义空间的双语词典抽取方案,使其无论是在准确率还是在鲁棒性上都得到了较大的提升。
其他文献
酰胺类结构是精细化学品中的一类常见官能单元,通过羰基化反应策略构建-CO-NH-一直是该领域的热点研究课题。然而传统羰基化反应在催化体系设计与羰基源的选择上面临两大挑战
我国民事诉讼“起诉难”的问题在上个世纪80、90年代就已初见端倪,而后愈加严重。为解决此矛盾,我国在2015年推出了立案登记模式的起诉-受理制度。与之前的立案审查制不同,立
现代科学技术的飞速发展使得互联网络逐渐覆盖到人们生活的各个角落,随之而来的,诞生出了“网络舆情”这种将现实生活中的社会舆情在互联网空间进行延伸,以集中反映民众内心
信用评级对于国家占据评级话语权来说具有重要的意义,且其是保障金融稳定性很重要的工具。随着我国对外开放的政策和经济的日益增长,研究属于自己的且拥有自主话语权的信用评级方法很有必要。违约距离方法最初是由Kealhofer、McQuown、Vasicek等三位学者注册的KMV公司提出的。该方法极大地推动了信用评级方法的发展,并逐渐演变为现在穆迪公司的信用度量方法,目前被广泛应用于对企业信用风险的评估。而
土壤无机碳(Soil inorganic carbon,SIC)是土壤碳的重要组成部分,对评价区域土壤碳储量、探索陆地碳循环以及缓解全球温室效应具有重要意义。本论文选择胶州湾大沽河与洋河流域的河口湿地作为研究区,沿平行于海岸带方向的光滩和垂直于海岸带方向的河漫滩分层采集土壤样品,测定不同样地的SIC含量、容重、含盐量等多种土壤参数,计算SIC储量,应用Duncan方法进行数据显著性分析,应用Pea
目的:对犯罪现场发现的体液溯源,可以在样本来源者与实际犯罪行为之间建立联系,为现场重建提供重要证据。血痕是犯罪现场最常见的体液痕迹,而外周血与月经血仅凭外观难以区分
随着教育改革的不断深入,越来越多的中小学校开始在学校变革与教师专业发展上呼唤专业人士的介入和引领,与大学研究者开展合作成为中小学教研活动新的发展态势。这种由大学研
在过去的20年里,厄立特里亚的高中一直面临着学生纪律问题日益严重的挑战,学校的利益相关者对这个问题相互指责推诿。因此,本研究旨在探究导致高中生纪律问题的原因,以及探讨
对于生产型企业来说,合理的生产库存策略,能够减少其自身所需的费用。目前很多企业在向顾客提供产品时,也提供服务。因此在保证产品供应和服务质量的同时,降低自身费用已成为企业在生产库存管理中的一个重要问题。易腐品具有较短的寿命,在其生产库存的管理过程中必须考虑寿命因素的影响。本论文对易腐品的生产服务库存系统进行了研究。首先,考虑了具有(s,S)策略的易腐品M/M/1生产服务库存系统。利用Markov过程
随着电子设备用户数目的快速增长,对于生物身份信息验证系统的需求也随之越来越多,而其中最为流行和便捷的便是人脸识别技术。人脸活体检测作为一种人脸识别技术的延伸,主要