论文部分内容阅读
机器翻译系统具有巨大的社会效益和经济效益,并且随着中国经济的迅速发展和国力的不断增强,汉语正在成为一种新的强势语言而被世人瞩目,因此汉英机器翻译的研究显得越来越重要。本文主要研究汉英机器翻译中的两个关键问题:时态处理问题和汉语句群划分问题。汉英机器翻译系统需要处理时态的问题,否则会影响翻译结果的准确度和流利度。此外,目前基于统计的机器翻译方法占据主导地位,由于时态处理还可以降低统计数据的稀疏性,统计机器翻译系统更迫切需要时态处理。
本文提出了一种新的用于解决层次性问题的统计机器学习方法--马尔科夫树标注模型。该模型的思想是:选择问题的特征并将问题表达成结点充满特征的树,而后对该树所有结点进行自动标注获取树的最佳标注;此模型最大特点是从整体上考虑最佳标注。本文提出的树最佳标注算法,能从整体上获取最佳标注,且具有多项式复杂度。马尔科夫树标注模型是解决层次性问题的一种通用的机器学习方法,为解决具有层次性的问题提供一种新的思路和途径,具有一定的理论意义和较广泛的应用前景。运用马尔科夫树标注模型在不完全时态树上进行时态标注,取得良好的效果。与目前最好的时态处理算法相比,该方法的准确率提高8%左右。基于马尔科夫树标注模型的时态处理算法能较好地解决汉英机器翻译中的时态处理问题,这在机器翻译研究领域,具有一定的创新价值。汉英机器翻译还需要语篇的处理。目前尚无在句群层次上的词汇消歧、冠词、代词、时态、省略的处理,而汉语句群自动划分问题的解决是这些处理的前提。已有的句群自动划分算法均是处理单重句群,本文首次探讨了多重句群划分的问题,并提出了一种基于层次聚类的多重句群自动划分算法。在该句群划分算法中需要抽取语篇的关键词,为此本文提出了关键词的局部重现度的概念。关键词在语篇的局部上下文中经常会重复出现,而常用词汇往往分散在整个语篇中,关键词的局部重现度是这种语言学现象的有效表达方式,其值与关键词的频度无关,而与主题词在语篇中出现的位置有关,是一种新颖、有效的方法。局部重现度作为关键词抽取的一个重要特征,可以广泛应用在自动摘要、信息检索、词典构建、机器翻译、数字图书馆等应用领域。