【摘 要】
:
身处全球化时代,各个国家和民族间的联系日益紧密,各个语种之间的翻译也理所当然变成了一种迫切的需求。人工翻译虽然可以实现准确翻译,其相对应的人力代价对许多需求来说却
论文部分内容阅读
身处全球化时代,各个国家和民族间的联系日益紧密,各个语种之间的翻译也理所当然变成了一种迫切的需求。人工翻译虽然可以实现准确翻译,其相对应的人力代价对许多需求来说却是无法负担的。因此,机器翻译的重要性不言而喻。然而,机器翻译还远未达到全自动、高质量的翻译要求,具有很大的发展空间。探索更有效的机器翻译算法仍然具有重要的学术研究和工业应用价值。深度学习目前应用广泛,在机器翻译领域也取得了突破性的成就。但是,目前神经机器翻译多以词语作为输入的基本单元。基于词语的神经机器翻译不仅处理流程更加繁琐而且分词算法难免引入误差,词典过大也会造成网络模型维度过高。除此之外,基于词语的翻译模型还存在对未登录词处理困难等问题。针对以上问题,本文以字符级别双语数据作为输入并进一步改进了基于神经网络的翻译模型。字符毕竟不同于词语,输入形式从词到字符的转换会造成原有模型效果的下降。因此,本课题在编码器-解码器的整体框架之下,进一步改进了神经机器翻译模型,着重强化字符的特征表达能力。在词向量生成模块,对原始词表征进行卷积运算的粗提处理,再通过循环神经网络对字符序列进行形式化切词,增强字符的序列表征能力。此外,硬切词会造成梯度回流受阻的问题。本课题对词向量进行了信息补充,整体强化了模型的特征表达能力。经典的注意力机制只关注了当前输出与整体输入的对应关系,通过融合历史信息,可以增强权值的全局性,进一步强化词对齐效果。实验结果表明,在字符级别输入的前提下,本课题的CRNN-embed模型相比RNN-embed以及RNN-search模型效果有了进一步提升。对比基于字符和基于词语输入的模型效果以及百万级和千万级语料库基础上的模型效果,可以得出字符级别的模型更有挑战性且语料规模的增长对模型效果有显著影响的结论。
其他文献
辽宁省草地资源主要分布于省北部和西北部的狭长带上,该区是我省重要的生态防护区,也是畜牧业生产的主要地区,其中有6个国家级半农半牧县。自1979年全国首次草地资源调查以来
为了应对经济全球化带来的竞争和挑战,中国不断加大对外直接投资(Outward Foreign Direct Investment,以下简称OFDI)的步伐。对外直接投资渠道不仅可以促进资源的获取及海外
目的探讨多瑞吉(芬太尼透皮贴剂)、美施康定(硫酸吗啡缓释片)以及奥施康定(盐酸羟考酮缓释片)在晚期癌痛患者治疗中的效果以及护理方法。方法 120例晚期癌痛患者,根据止痛治
改善农村人居环境,是实施乡村振兴战略的一项重要任务。习近平总书记指出:“普遍推行垃圾分类制度,关系13亿多人生活环境改善,关系垃圾能不能减量化、资源化、无害化处理。”
目的:1.探讨动脉粥样硬化(Atherosclerosis,AS)斑块中单核-巨噬细胞(Monocyte/Macrophage)内微小核糖核酸199a(miR-199a-3p)表达含量变化及其可能的转运分泌的方式。2.探讨AS
竹文化是我国传统文化的典型代表,在实际应用和文化传承上具有独特的优势:从文化角度来说,陈寅恪先生曾将中国文化比喻为“竹的文化”,竹这一代表了中国文化尊严的物象,具有
随着社会经济的快速发展,人们对能源的大量需求,人类必须要面对和亟待解决传统能源日益枯竭和环境污染等问题。近年来可再生能源受到普遍关注,其中太阳能光伏发电技术得到快
马克思主义历来重视人与自然生态之间和谐统一的关系,认为人是自然生态系统的一份子,强调人类经济社会的发展必须顺应自然规律。新中国成立以来,历代领导集体都对生态保护事业做出了较大的贡献,对经济发展和生态环境两者关系提出了许多观点和论述。经过几代中国共产党人对马克思主义自然生态观的继承和创新发展,生态文明及建设生态文明在党的十七大上首次提出,党的十八大又把生态文明建设升格为中国特色社会主义事业的“五位一
通过收集广州市水上巴士客流量数据并对乘客进行问卷调查,分析乘客出行次数、时空分布、出行目的、换乘方式和服务反馈等,探讨广州市水上巴士乘客出行的特征及成因,针对水上巴士