论文部分内容阅读
双语对齐是当前机器翻译中的一个重要研究课题,对于自然语言处理的一些其它任务,例如双语词典构建、词义消歧等也有很多的应用。双语对齐在英法、英汉等语言对中已有很多的研究,但是在古代汉语和现代汉语之间的自动对齐研究还没有。本文针对古代汉语与现代汉语语料,分别研究其在句子和子句两个层次的对齐。在古代-现代汉语句子对齐中,论文根据古代汉语与现代汉语双语文本的特点,建立了一个综合长度信息、模式信息和汉字信息的对齐模型,模型使用动态规划算法在逐段对齐的古今文本中发现代价最小的句子对齐序列。实验结果表明,这种方法能达到92%以上的句子对齐精度。本文对多种信息源的组合情况,以及各种容易引起对齐错误的情况进行了进一步的分析。由于子句对齐能获得更为细粒度的对齐信息,为以后词的对齐和结构对齐提供更好的基础,本文进一步研究了古代汉语和现代汉语的子句对齐,在子句对齐中,本文采用和句子对齐类似的方法,依据子句的语料特点进行了算法的参数调整,实验中得到了超过93%的对齐精度。通过与句子对齐的比较,进一步讨论了不同的统计信息给对齐结果带来的不同的影响。