论文部分内容阅读
机器翻译一直是自然语言处理领域的研究热点,随着统计机器翻译研究的逐步深入,机器翻译在理论和实践方面都取得了很大的进步。但是由于统计机器翻译方法依赖于训练语料,一些特定领域由于缺乏平行训练语料而导致其译文质量相当不理想。随着全球化的不断深入,跨境旅游已经成为人们日常消遣的一部分,面向旅游领域的机器翻译系统拥有很大的市场前景和研究意义。由于旅游平行训练语料的缺乏,使用通用机器翻译系统得到的旅游文本译文比较糟糕,因此,本文对旅游文本篇章特性进行研究以提高系统翻译质量,主要工作包括:(1)篇章预处理研究,我们提出了一种结合规则方法与机器学习方法并融合集成学习和半监督学习策略的汉语旅游文本非信息句识别模型。为了构造初始化种子标注集,我们首先根据非信息句的特点构造规则模板,采用规则的方法进行标注,然后我们将非信息句识别看成是一个二元分类问题并使用机器学习方法进行分类识别。由于规则方法所构造的训练集数量小且存在数据不平衡的特点,我们引入了基于Self-Training的半监督学习策略和集成学习的策略。实验结果表明,该模型具有较好的非信息句识别效果。(2)汉语成语翻译方法研究,与一般文本相比旅游文本中成语出现更为频繁,针对成语翻译问题,我们提出了基于复述技术的汉语成语翻译方法。首先我们实现并改进了三种复述获取方法以获取成语复述,从而构建了成语复述库;然后我们根据成语类别提出了成语复述替换的择优方法;接着我们通过在测试集和训练集中分别替换成语复述来实现对成语的改进翻译。实验结果表明,我们的方法可以解决成语在训练语料中未登录而无法翻译的问题并能减小由于训练语料中成语的稀疏性而导致的词对齐和概率估计错误问题,从而有效地提高了翻译系统的成语翻译能力,并在一定程度上改善了统计机器翻译系统的翻译效果。最后我们将上面两个研究工作结合开源工具Moses中的基于短语的统计机器翻译模型,构建了面向旅游领域的汉英统计机器翻译系统,翻译示例显示我们的系统在旅游文本上能有更好的翻译效果。