论文部分内容阅读
大规模平行语料库是机器翻译、跨语言信息检索等自然语言处理应用的重要资源。互联网上存在着海量的多语言平行资源,以往的一些研究都致力于从一些多语网站中获取平行(即互为翻译)的单语网页对,进而获取平行语料。虽然许多机构都已经展开建设双语平行语料库的工作,但现有语料库在数量、质量以及领域覆盖性等方面还不能满足处理真实文本的需要。目前,学者发现在Web上双语平行资源不仅存在于两个平行的单语网页对中,还存在于双语混合网页中,且存在于双语混合网页内部的平行资源翻译质量更高、数据规模更大、领域覆盖更广。本文的研究就是基于双语混合网页展开,致力于研究如何自动构建一个大规模双语平行语料库。取得的主要成果归纳如下:(?)探索基于Web获取双语混合网页互联网中索引了海量的网页,如何准确获取双语混合网页是个充满挑战的任务。以往的研究都是采用限定目标源的方法,即预先收集大量的源站点(比如英语学习网站、翻译网站等),然后递归下载所有内部网页作为候选双语混合网页。但是该方法中源站点的选择需要人工干预,且获取的网页数量有限。为了克服这些缺点,还有-些研究提出利用搜索引擎和启发式信息自动筛选得到候选源站点,但得到的候选资源良莠不齐,会下载到大量噪音网页。本文提出了一种借助搜索引擎和已获取的小规模平行语料来递归地发现并获取双语混合网页的方法,实验结果表明该方法能够快速地、准确地、持久地获取高质量的双语混合网页。(?)改进了双语平行资源抽取、对齐技术双语混合网页中不仅包含有用的双语平行资源,还包含一些噪音信息,如广告信息、导航信息等,而且平行资源的存在形式多种多样,这些都给平行资源的抽取工作带来困难;此外,平行资源中的词汇量也大大超出双语词典的范围,这又增加了平行资源对齐工作的难度。本文提出通过自动学习平行资源在网页中的存在形式的方法来抽取平行资源,并使用基于长度、双语词典、翻译模型等方法来提高平行语料库的质量。