用于统计机器翻译的上下文感知的双语限制递归自编码器

来源 :厦门大学 | 被引量 : 0次 | 上传用户:jinkejinlv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
学习高质量的短语表示一直是统计机器翻译(SMT)中一个研究热点。随着单语短语表示学习研究的成功,许多方法被提出来用于双语短语的表示学习。究其本质,这些方法的出发点都是建立在一个短语及其对应的翻译表示的语义是相同的。所以,在相同的语义空间中,一个短语及其对应的翻译应该尽量接近。然而,现有的工作只考虑了短语内部词之间的组合关系。短语的语义受到其所在上下文的影响,对短语外部的信息的忽略会影响到短评语表示的学习。我们提出了一种融入主题信息的双语短语的表示学习方法。通过将上下文信息融入到双语短语的表示学习中,我们解决了上面提到的问题。具体地,一方面,我们将短语所在文档的主题分布和由递归自编码器学习到的短语表示融合,得到带有上下文信息的短语表示。另一方面,由主题模型得到的词的主题分布反映了词在主题空间的语义,我们将得到的词的主题分布用于约束词和主题表示的学习中。通过这种方式,我们希望具有相似主题分布的词在语义空间中尽量接近,从而进一步提高学习到的短语表示的质量。与之前的双语短语的表示学习方法相比,我们不但考虑了短语所在的上下文,而且建模了词和主题之间的关系来约束模型的学习。在中文到英文机器翻译上的试验结果表明我们的模型显著提高了翻译质量。
其他文献
反馈在教学研究领域一直被认为是提高学习者学习能力的重要手段。写作自动评价系统作为一种新型反馈手段被越来越多地运用到英语写作教学之中。它可以为学生在线提交的作文即
面对新形势、新任务和新要求,我们要以习近平新时代中国特色社会主义思想为指导,加强政治学习、加强学术研究、加强服务能力建设、加强品牌建设、加强规范管理,努力把中国电
作为高效的资金回收手段,债权让与于现实的交易中日益频繁,频发的交易也已使得债权由静态的财产蜕变为动态的资本。然而,作为一种无体财产的处分,债权的让与较之有体物的让与
随着移动互联网技术的发展和移动智能终端在人们日常生活中的普及和广泛使用,智能手机、平板电脑等移动终端正在成为学习、娱乐、社交、新闻更新和商业交流的重要工具。然而,由于移动终端的资源(计算能力、电池能源、存储容量)有限,计算密集型应用程序无法高效且持久地在移动终端上运行。在物联网和5G通信的驱动下,移动计算领域出现了重要的转变,由传统的集中式云计算向分布式的边缘计算转变,移动边缘计算迁移(Mobil
福建俞家棍是福建省级非物质文化遗产,福建省传统棍术代表之一,是见证福建抗倭历史的遗存。本文主要采用田野调查法、文献资料法、逻辑分析法等研究方法,历时三年,多次深入泉
随着经济的发展,社会利益冲突的多元化,价值观和文化观的多元化,人们的婚姻观念也不断的更新多元。家事案件近年来数量增长快速,矛盾也越加复杂,所以解决家事案件必须寻找新
纵观中国古代美术史,山水画始于魏晋,兴于大唐,盛于宋元,然而在山水画独立之前的早期艺术发展史中,再现自然天地,表现宇宙法则的艺术探索一直没有停歇。其中,蕴含着中国传统
自2014年国务院发布全民健身计划以来,全民运动健身的理念开始深入人心。随着时间的推移、大众的需求,多元化的融合发展新思路成为主流,相应的体育综合体诞生了。它依托新型
安徽地处华东腹地,南北要冲。朱元璋于此发起农民起义推翻元蒙统治,重新建立汉人国家。作为唐音的继承与清诗变革之先河的明代诗歌,在此期间也呈现出不同风貌,此时期诗歌流派
我国立法及其实践均未对航空公司实质所有权与有效控制确立明确统一的标准,导致对于国际航空投资方面的问题不能妥善解决。国外关于航空公司实质所有权与有效控制制度的规范,