基于神经网络的彝汉翻译研究与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:ZXX198811
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
沟通是人类社会生活的润滑剂,良好的沟通可以提高工作效率,促进社会和谐发展。而我们能良好沟通的前提是我们懂得对方的语言。中国是一个多民族多语言的国家。很多时候,两个语言不同、又没学过对方语言的人很难直接沟通。为了促进各民族之间的相互了解,我们有必要研究各民族语言间的翻译。同时还能保护和发扬少数民族传统文化,助力早日实现伟大复兴的中国梦。彝族是分布在我国西南地区的一个少数民族,彝文也是我国的古老文字之一。为了解决彝族地区民族融合过程中存在的交流沟通困难问题,促进彝族地区的经济文化发展。同时为了更好地发扬优秀的彝族传统文化。借助近几年发展迅速的深度学习技术,本文开展了彝文相关的神经机器翻译研究工作,实现了从彝语到汉语的神经机器翻译。本文的主要工作分为以下三个部分:(1)为了完成彝汉神经机器翻译任务,本文系统学习了神经机器翻译相关技术。鉴于没有相关的彝文语料库。本文收集整理彝文资料做成20万的彝语单语语料,基于词和彝文古诗的7万对彝汉互译语料库。然后用收集的彝文词汇在彝文单语语料上统计词频制作词频表,根据频数权重抽取彝文词汇构造带标签的伪彝文句子,训练双向LSTM模型用来预测句子标签,最后结合Viterbi算法输出最优的切分方案,实现基于深度学习的彝文分词。(2)根据近几年有关小语种神经机器翻译的研究,本文提出了基于Transformer XL的双编码器双解码器的彝汉翻译模型。翻译模型的编码器、解码器有一对来自Transformer XL,另一个子编码器是双向LSTM,子解码器是结合注意力机制的LSTM。同时为了更好捕获语序信息,编码器端引入基于复值的词嵌入法。针对彝汉语间没有平行语料库,但有部分基于词和彝文古诗的彝汉互译语料的现象,本文用后者采用弱监督的学习方法来初始化翻译模型。为了验证本文提出的模型、引入的词嵌入法以及采用的模型训练方法的有效性,同时为了与统计机器翻译做对比,本文做了四组对比试验。(3)实现彝语到汉语的翻译系统。结合翻译对比实验,选取本文提出的结合复值词嵌入法、采用弱监督学习方法的翻译模型,实现了基于B/S架构的翻译系统。详细介绍了系统总体架构和各功能模块、实现过程及系统部署,并进行系统稳定性测试和翻译效果展示。
其他文献
实验采用低温直流磁控溅射技术,经O2和Zn在真空腔内反应、在涤纶纺粘非织造布表面沉积ZnO功能性纳米薄膜。运用能量散射X射线能谱仪(EDX)分析样品镀层前后元素组成的变化及其含
“如果银行不改变,阿里将改变银行”。正当整个银行业都在为互联网技术推动其向前大步迈进而高歌时,互联网金融对商业银行的入侵也已悄然而至,甚至威胁到商业银行的生存和发展。互联网金融带来的“鲶鱼效应”给原有的商业银行带来了活力,互联网金融的独特模式为传统商业银行探索创新发展拓宽了思路,二者必将从竞争逐步向融合的方向演变,也必将促使传统商业银行通过持续创新以适应新时代的发展。本文以中国建设银行江西省分行为
随着纳米金属薄膜在微机械、微电子领域的广泛应用,膜内的热障效应及尺度效应成为限制技术进一步发展的重要因素。因此,对纳米薄膜材料内热效应的研究成为一大研究热点。而飞秒激光的泵浦探测技术为观测、研究微观能量转换与传递过程提供重要手段。本文主要采用飞秒激光的泵浦探测技术观察纳米金属薄膜表面的瞬态反射率变化,分析非平衡热输运现象,研究其弛豫时间。本文的内容主要包括以下几个部分:第一部分简单介绍了金属薄膜内
马头山国家级自然保护区地处武夷山脉中段,区内石松类和蕨类植物资源丰富。研究表明:(1)该区现分布有石松类2科5属17种,蕨类植物17科54属143种(含种下等级);(2)该区优势科、
随着分形理论的发展,其在材料科学中的应用日益广泛,而在纳米材料的研究中,分形理论显示出优越性.概述了分形的概念和分形学的发展,介绍了近年来分形理论在纳米材料研究方面
<正> 几十年来,尤其是新中国成立以来,在整个中国现代文学研究中,关于中国左翼作家联盟和以它为旗帜的三十年代文学的研究,从资料的收集整理,到作家作品、运动斗争的分析评价,应该说是比较充分和比较有成绩的。但较之对此前的二十年代文学和此后的四十年代解放区文艺,对于“左联”,并且由此波及整个三十年代文学,研究者的分歧意见却又呈现着更多、更杂的状况。溯
<正> 富道将他的集子寄给我,仅仅是出于情谊,并非要我写点什么。他知道,我是从不写什么评论文章的。同样仅仅是出于情谊,我将他的集子细细看了一遍,看的时候,也没有想到要写点什么:我比他更知道自己,我从未写过评论别人作品的文章。但是现在,我却不能不写点什么。说来有点对
在简体中文环境下的4G移动互联网时代,得益于移动智能终端设备等硬件、全民移动APP等软件的双重支持,知识分享行为呈现出井喷之势。作为一种特殊的传播行为,知识分享高度依赖于社交媒体的发展,随着数字传播技术的发展和社交媒体的演变,参与社交媒体的人由于三观上的部分认同而被媒介连结到一起,在此过程中,知识分享行为经历了一代又一代的渠道演变。而到了简体中文环境下的4G移动互联网时代,由于知识分享门槛的降低和
综述了先驱体转化法制备SiC纤维过程中聚碳硅烷(P(焉)的各种不熔化处理方式及其发展状况。通过不熔化方式对终烧产物SiC纤维性能的比较,讨论了各种不熔化方式的优缺点及其对SiC纤
<正>为充分发挥期刊学术平台作用、促进学术研究和交流、更好地服务海洋事业,本刊特向国内外海洋领域专家学者征集独家稿件,相关专题和主题方向如下:"海岛保护与管理"专题(1)