机器翻译系统融合中的若干问题研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:star51324
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
系统融合是一项有效综合多种统计机器翻译模型的结果大幅度提高翻译质量的有效方法,在国际机器翻译评测中,这种技术显得尤为重要。本文针对系统融合的经典过程,对齐和构造网络、参数训练、解码最优值,分别提出了相应的改进,得到了较好的效果。   1、双向译文对齐质量的提高有利于构造更好的混淆网络   混淆网络结构是系统融合中最重要的数据结构,承载着压缩记录指数级数目候选译文的重任。混淆网络是根据译文的两两对齐结果按照确定的步骤构造而来,所以译文对齐是一个关键的问题。广泛使用的隐马模型对齐是基于单向的,只能处理1-n模式,而同种语言之间的对齐是存在很多客观n-对-n的结果,因此我们希望使用双向的信息更好地提高结果。我们使用多目标遗传算法来解码译文,主要优点有,它很方便地引入更多的双向信息,这包括只需要编写计算特征的代码,无须改动解码流程,可以得到较好的全局次优解,而且这是一个无监督的过程,不需训练特征之间的权重。   2、使用全局的CRF训练更好的参数   目前系统融合上的训练算法是基于机器翻译中应用最广泛的最小错误率训练,它需要不断地解码得到nbest,然后运行改进的Powell算法来预测最优值。但是针对系统融合这个问题,一些特殊的结构使得可以无须生成nbest而考虑直接在原始问题空间中训练以减少误差,例如混淆网络这种典型的序列结构。我们使用条件随机场模型来训练系统融合的主要困难是训练目标不能直观地得到,以及语言模型特征影响做概率推理。针对前者我们提出了部分参考译文这个概念,针对后者则使用限定窗口来枚举ngram以及对计算损失进行补偿。   3、基于贝叶斯原理的解码以增强模型的鲁棒性   传统解码是在一组数据上训练得到最优的参数然后去解码测试数据,这样训练结果会依赖数据之间的分布是否相似。我们尝试使用贝叶斯原理对这个过程建模,将参数也作为变量来考虑,尽可能考虑更多参数对模型的影响从而增强模型的鲁棒性。这过程中,最大的困难是对参数分布的假定是否合理,近似是否高效。具体建模时,我们做了很多的近似方法以使得推导出来的公式更加实用。我们第一种思路假定翻译概率很难精确计算时近似采用译文得分,第二种思路在翻译森林上精确计算概率,然后采用抽样的方法得到样本参数来减轻计算量。
其他文献
对非合作空间飞行器进行轨道确定是开展空间探测、轨道监测和态势感知等空间任务的前提之一。本文针对非合作空间飞行器轨道确定过程中涉及的问题,在总结现有轨道确定方法的基
XML由于简单灵活和良好的可扩展性,在网络服务、关系数据库以及形式化研究等领域得到了应用。随着XML处理技术的不断发展,近期的研究表明静态类型化处理方式在XML处理时具有
传统的软件开发模型,如瀑布模型,是预测性的,在项目初期进行长期细致的计划,在执行过程中需求的变化有时会导致严重的后果;敏捷方法是适应性而非预测性的,允许项目快速响应需求的变
本文研究广义曲边四边形区域族上自共轭偏微分方程特征多项式的构造和特征值的求解问题,分析了过四点:(1,1),(1,-1),(-1,-1),(-1,1)的二元四次区域上PDE特征多项式的主要性质,讨论了带
敏捷开发方法是一种轻量型的开发方法,相对于传统的开发方式来说,敏捷开发方法强调客户与开发人员间的沟通,以高质量的软件代替开发文档,强调不断的迭代以满足客户的需求,具有能够
随着电子计算机的普及,越来越多的人使用计算机来进行工作和娱乐,传统的鼠标键盘作为主流人机交互媒介已经有数十年之久。然而,这种交互方式难以满足日益多样化的应用需求,一种自
随着Web2.0的快速发展,互联网上每时每刻都在产生大量信息,形成各式各样多种类型的事件,作为一种信息交换和共享的中间件,发布/订阅服务通过由用户提交订阅表达所关心的信息的方
中国科学院沈阳计算技术研究所数控总线实验室研发出数控现场总线NCSF。随着该总线的应用,需要开发更多的NCSF总线配套产品。NCSF总线产品的设计人员在设计、调试和维修时,常常
近年来,物联网及其应用发展迅速,它使得人和物品能够在任何时间、任何地点与任何其他的人或物品相连接,借助于物联网,人们可以观察到带有发生时间和位置标记的事件,进而希望观察到
近些年来,图像目标跟踪技术广泛应用于工业和军事等领域。DSP以其高速处理、编程灵活等特点在目标跟踪平台中得到大量应用。随着图像处理的数据量越来越大,对图像处理平台的