基于混合策略的藏汉人名音译模型研究

来源 :中央民族大学 | 被引量 : 0次 | 上传用户:ashwgs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音译作为一种按照文字读音进行近似翻译的方法,在人名翻译中有着广泛的应用。人名音译接受一个源语言的人名作为输入,在保证发音基本不变的原则下,输出与该人名以目标语言表示的翻译。在许多应用中,例如实体翻译,语料库对齐,跨语言信息检索,信息提取和自动词典获取等任务中,命名实体的音译是必不可少的子任务,而人名音译是命名实体音译的重要组成部分。本文通过基于字素的藏汉人名音译模型研究,总结出资源较少语言在音译时的不足,提出了“先确定发音,再确定字型”的音译策略,并通过线性组合和利用发音信息重排序的策略对候选音译对进行重排序。本文的主要工作和贡献点如下:1.本文首先介绍了基于形素的藏汉人名音译框架,并在该框架下分析比较了两种音译模型:联合信源信道模型和条件随机场模型。在联合信源信道模型中,我们介绍了藏汉人名音译模型在基于形素的前提下如何进行切分对齐,并介绍了生成多个候选音译对所使用的Beam Search算法,然后通过分析输出的中间参数,根据二元音译对,一元音译对,源语言音节和目标语言音节之间的关系,找到了对应关系矩阵稀疏的原因部分是因为汉字中的多音字现象,为后面的工作做了铺垫。在条件随机场模型中,我们简单介绍了模型的模板设计,以及模板设计的原理。2.藏文是一种资源较少语言,我们很难获得大量的藏汉双语人名语料。本文提出了“先确定发音,再确定字型”的策略,使用藏文的拉丁转写和中文的汉语拼音来改写藏文人名和中文人名,将藏汉人名音译分成从藏文到拉丁转写,从拉丁转写到拼音和从拼音到汉字三个步骤。通过双语语料来确定藏文人名的汉语发音,然后利用大量的中文单语语料来确定字型,将实验对藏汉双语语料的需求转移到了对汉语单语语料的需求上,大大降低了语料的搜集难度,从而提高了模型的准确率。3.本文在“先确定发音,再确定字型”的基础上,提出了一种更细粒度的切分方法,并在拉丁转写到拼音阶段,输出中间参数并和基于形素的结果进行比较,证明了使用更细粒度的切分方法,能够有效地减少对应关系矩阵的数据稀疏现象,从而提高音译的最终效果。I4.本文还研究了如何对生成的候选音译对进行重排序。在分析了前面获得的候选音译对的特点以及重排序的原理之后,我们使用线性组合的策略,采用投票的方法进行了相关的实验,分别验证相同方法不同模型,相同模型不同方法下的重排序效果。并提出一种新的利用基于音素的实验产生的发音规则作为标准,对基于形素的实验结果进行重排序的重排序策略,并设计相关的实验验证了此策略的效果。
其他文献
化工过程通常为高维大系统,在进行底层常规控制系统设计时,应当考虑回路间的关联性并对各输入输出变量进行合理配对。面对高维大系统,随着系统的维数不断增大,变量配对方式迅
以硝酸银、溴化钠为主要原料,采用静态扩散-离子交换法制备纳米溴化银,考察了反应物混合方式及浓度、滴加反应时间对纳米溴化银粒径的影响。实验结果表明,所制备的纳米溴化银为面心立方结构,粒径为52.0~70.0 nm,其比表面积是普通溴化银比表面积的5.8倍,光催化降解甲基橙实验结果表明,纳米溴化银的光催化活性是普通溴化银的4.5倍,且具有与普通溴化银相近的光催化稳定性。采用丙烯酸型高吸水树脂(SAP)
随着新型社交网络的兴起,社会网络服务得到了飞速的发展,这促使人们可以更加快捷方便地进行信息传播与实时交流。但是社交网络在促进社会经济发展和人文交流的同时,也带来了
本研究探讨了寄宿制小学生孤独感、心理韧性、学习投入三者的关系,旨在为寄宿制学校的教育工作者们提供科学和有价值的学生心理资料,并且进一步为儿童孤独感理论与学习投入理论的研究进展提供充分的理论依据与数据支持,从而有针对性的推进心理健康教育工作的开展。研究通过对陕西汉中某寄宿制小学四至六年级共270名学生进行《儿童孤独量表CLS》、《心理韧性量表》、《学习投入量表》的施测,整理数据并进行统计分析处理;以
学位
TJLM公司是一家国际化的胶粘制品公司,公司的产品主要服务于:医疗、消费电子、交通以及能源等。在市场全球化的激烈竞争环境下,公司如何以更低的成本、更高的质量、更短的周期,生产出符合顾客要求并达到顾客满意的产品,关系到公司的生存与发展。六西格玛是一种先进的管理模式,可以帮助公司实现预期的成果,提高核心竞争力。我作为公司的六西格玛黑带,组建了涂布产品质量改进项目小组;对过程进行了分析,识别了顾客及过程
随着经济的快速发展,我国的城市和农村收入差距呈现扩大趋势,收入不平等的程度和两极分化的现象也日趋严重,收入不平等也是其他不平等现象的根源之一.因此,对收入不平等度量
目的:通过转录组测序技术对正常人和肺结核病人外周血白细胞进行circRNA表达分析,明确circRNAs在肺结核病人和正常人外周血白细胞中表达特征,筛选出能够用于肺结核病人早期诊
十九大报告提出,“加快建设制造强国,加快发展先进制造业”。我国制造业受到新兴经济体积极承接产业转移和发达国家再工业化的双重挤压,自身优势尤其是价格及成本优势不断减
本研究通过以北京土石山区典型土壤褐土为研究对象,在不同雨强(30 mm/h、60mm/h、90mm/h)条件下分别开展10场次连续模拟降雨试验,及以黄土高原典型土壤黄绵土为研究对象,在不同雨强(60mm/h、90mm/h)、坡度(2.5°、5°、7.5°、10°、15°、20°)和坡长(5 m、10 m)条件下开展单场次模拟降雨试验,研究了北京土石山区褐土和黄土高原黄土坡面土壤有机碳(SOC)侵蚀
石油天然气作为工业化进程中不可或缺的资源,需求量日益增加。海洋油气储量丰富,逐渐成为行业关注的重点。现阶段海洋油气开发以水下生产系统为主,由水下控制系统进行监测和