融合语言特征的印度英语-汉语神经机器翻译研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:you3880066
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网以及信息技术的飞速发展,人工智能领域越来越受到人们的重视,吸引了大批的研究人员和开发人员。机器翻译是人工智能领域研究的热点,具有重要的理论意义和极大的应用价值。本文研究旨在探究如何构建印度英语-汉语的双语语料库,如何在通用英语-汉语神经机器翻译模型基础上通过迁移学习训练印度英语-汉语神经机器翻译模型,如何把印度英语的语言特征与神经网络结合起来,如何设计并实现印度英语-汉语的神经机器翻译系统。针对上述问题,本文的主要工作如下:1、社交媒体印度英语语料的获取。印度英语是一种典型的英语变体,受到印度历史、地理、政治、经济、文化等多方面影响而带有显著的区别性特征,尤其是自然口语风格的社交媒体语言,所以我们选取了一些社交媒体网站,通过爬虫程序获取网页上的文本,再把文本处理之后得到语料。2、印度英语语言特征的研究。印度英语与美国英语、英国英语有所不同,有自己的一些语言特征,要把语言特征和神经网络很好地结合起来,就必须深入研究印度英语的语言特征,抓住了印度英语的语言特征,才有可能把语言特征融入到神经网络中,从而改善神经机器翻译模型的性能,提高译文的质量。3、迁移学习的运用。与国际性的美国英语、英国英语相比,印度英语地域、名族、文化特征明显,使用范围有限,关注度不高,很难获取到的大量语料。可以使用少量的语料把已经训练好的模型做迁移学习,以解决印度英语这种低资源语言(或语言变体)机器翻译模型训练中语料贫乏的问题。4、机器翻译系统的设计与实现。本文融合神经网络、迁移学习和语言特征,设计并实现了一个印度英语-汉语的神经机器翻译系统,实验结果表明,其译文的BLEU值比当前主流的神经机器翻译系统有了大幅度提高。
其他文献
目的观察急性闭角型青光眼治疗前后不同时间点发作眼和对侧眼视网膜神经纤维层厚度及视野变化特征。方法收集急性闭角型青光眼单次急性发作患者27例,在急性期内采用光学相干断层扫描(optical coherence tomography,OCT)测量双眼视网膜神经纤维层(retinal nerve fiber layer,RNFL)平均及上、下、鼻、颜侧的厚度,将发作眼与对侧眼的数据进行比较,以及眼压控制
为应对人口老龄化问题,基于我国当前的养老现状和互联网时代极速发展背景,在社区居家养老基础上发展科技养老成为新的方向。本文以L市养老信息服务中心为例,深入探究该信息养
<正>本文通过定义排班模板、角色、岗位属性和岗位技能等相关要素,结合各要素的约束条件建立数学模型,基于遗传算法(GA)设计自动排班算法,利用ASP.NET进行编程开发了一套排班
文章针对整本书阅读在我国语文教育界的理论研究和实践探索做了初步的探讨,并在新的课程改革背景下就整本书阅读教学的课程化进程进一步厘清了认知轮廓,期望为整本书阅读教学
企业的日常经营活动中,现金的合理持有与分配需要一定的机制去有效监督与制约,才会保证较高的现金管理效率,从而提升企业价值。近年来,我国现金持有水平普遍的高于其他发达国
基线比例忽略是指个体进行决策和判断时不能充分利用或者忽略基线比例而偏好新信息的现象。该现象普遍存在于日常行为与决策的许多领域,尤其显著表现在临床医疗领域,因此对这一
我国地大物博,矿产资源十分丰富,随着锌冶炼产量产能的增加,对于锌原料的需求量逐渐加大,锌精矿、锌矿石、铜锌混合矿石、铅锌混合矿石中金属的提炼对于冶炼企业的效益影响是
核电建设目前已发展了数十年,目前绝大多数核电厂安全运行记录良好,然而一旦核电厂发生事故其后果将相当严重。我国目前在核电应急通信领域主要以地面通信为主,一旦发生重特大事故叠加自然灾害,仅依靠地面线路是不够的。因此,建立一套核电应急通信系统十分必要,既可为地面线路故障恢复前提供应急保障,又可为国家核响应中心提供突发事故现场信息,提升核电通信领域的应急保障能力。本文主要研究核电应急通信系统的设计和实现,
本研究选择海浪河下游作为研究样地,设置10个采样点,并于2009年3月至2010年1月共进行6次采样,同时对相应的水环境理化因子进行检测。采用传统微生物分离方法等分析对该流域细
本文对国内外关于供热工程中比摩阻的研究进行了综述,分析了目前规划、设计阶段在比摩阻取值问题上存在的不足之处,通过对比摩阻影响因素的分析提出了综合比摩阻的概念,该概