汉蒙词法分析及其在统计机器翻译中的应用

被引量 : 0次 | 上传用户:lmaster
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词法分析是自然语言处理的一个基础性研究,词法分析的正确率将直接影响到后续自然语言处理(如:机器翻译)的性能。本文构建了统计模型,对汉语和蒙古语进行了切词和词性标注处理。在此基础上,将汉蒙词法形态信息融入到了汉蒙统计机器翻译系统,并在双语对齐的平行语料库上进行了实验,改善了译文的质量,验证了词法分析对于汉蒙机器翻译的重要性。本文系统地介绍了条件随机场模型的定义、图结构、势函数、模型训练及解码算法;并简化了条件随机场模型的图结构、设计了特征函数、改进了解码算法;将改进后的模型应用到了汉语和蒙古语的词法分析工作中。本文提出了一种局部歧义词网格与条件随机场相结合的汉语分词模型。首先,在低层使用局部歧义词网格对文本粗切分,并将切分结果作为一项特征提供给高层的CRFs模型;然后,在高层使用条件随机场对文本进行字标注。在SIGHAN2005提供的PKU和MSRA分词语料上进行了测试,取得了较高的切分结果。我们还构建了能够融合更多上下文信息的汉语词性标注模型。本文针对蒙古语通过词干后缀接不同词尾来实现形态变化的语言特点,首先构建了基于最小描述距离的统计模型,用于蒙古语词形切分;并在此基础上建立了一个双层的蒙古语词性标注模型,该模型把低层的切分结果作为一项特征提供给高层的条件随机场模型去学习。在内蒙古大学提供的语料上进行了训练和测试,取得了较高的标注结果。本文将汉语和蒙古语的词法信息作为因子融合到统计机器翻译系统中,建立了源语言因子到目标语言因子的多个翻译路径;使用了多个基于词法因子的语言模型评价翻译结果;建立了从目标语言翻译因子到表面词形的生成模型。弥补了统计模型对汉语、蒙古语词法信息利用与表达能力不足的问题;提高了统计机器翻译的译文质量。
其他文献
<正> 在商品化会计软件工资模块中需要设计个人所得税的计税功能,还有很多单位采用Excel软件核算工资和计算个人所得税。从目前《中国会计电算
针对机载电子设备散热应用条件,研究热管均温板在机载加速环境下的传热性能。为提高热管散热稳定性,将热源布置在热管中部,热管两端作为散热端。试验中试验单元安装在离心加
隐性知识显性化的过程包括:隐性知识显性化的发端、显性知识的传播和确立等环节.图书馆在隐性知识显性化过程中的功能是:提供隐性知识与显性知识互动的平台;发挥知识领航的功
为探索苯醚甲环唑水分散粒剂对玉米大斑病防治的最佳施药时期,通过田间试验比较了在玉米拔节期、大喇叭口期、吐丝期喷施药剂的防治效果。结果表明,在玉米大喇叭口期喷施10%
社区体育馆由于地理位置优越,日益成为群众日常健身场所的首选.文章通过对江西省南昌市5个居住小区的调研,发现社区体育馆不仅数量少,同时还存在诸多问题,根本无法满足社区群
在经济全球化的大背景下,我国改革开放进程不断向前迈进。为了确保改革成果,促进我国经济平稳持续发展,作为上层建筑的政府,应该充分发挥其经济管理职能,积极完成经济职能的
纳税主体结构是影响增值税功能发挥的一个极为重要的因素。我国现行增值税关于纳税人的划分欠科学。新一轮税制改革必须在推动增值税转型和扩大征收范围的同时,重新调整纳税人
任何形式的生产都是人类劳动的体现。在这个意义上,不管在何种经济形态中,产品总是作为人类劳动的产物,并体现了凝结在其中的人类劳动。然而,马克思所关注是以雇佣劳动为基础
近年来,社会经济飞速发展,人们的健康意识不断增强,为了提升生活饮用水质量控制力度,我国相关部门积极制定并落实了《生活饮用水卫生标准》(GB5749-2006)。这一举动充分说明
随着社会的发展,人们的审美观念不断地发生变化,而且对多样化和个性化需求也不断增加,对这部分需求的满足将成为决定汽车的设计成败的关键因素之一。汽车造型设计风格是汽车