论文部分内容阅读
随着统计自然语言处理技术的发展,双语平行语料库在统计机器翻译和跨语言检索领域中的作用已不容忽视。现有双语平行语料库仍然无法满足实际应用的要求,双语语料库成为统计机器翻译系统和跨语言信息检索的发展瓶颈。现在双语语料库的进一步研究成为国内外研究者关注的焦点。目前的英汉语料库主要集中在政府文件、新闻法律和著名文学翻译等特殊领域,因此这种领域不平衡性降低了相关研究在实际应用中的水平,从而使得各项基于语料库的研究陷入瓶颈。为了减轻人工搜索双语语料的工作难度,有必要研究一种高效的双语语料库建设方案,并能够轻易运用到各个领域研究工作中,以替代以往人工获取双语语料库的方式。为解决实际问题提供精确的解决方案对相关研究发展具有非常重要的现实意义。本文从基于不同网站提出了几种获取双语语料的方法。包括面向“爱词霸”的双语语料自动获取,基于中国学术期刊的语料获取,以及基于专利的双语语料获取。本文详细介绍了各个语料的获取方法及过程。针对不同的网站特点提出了不同的双语语料获取方法,实现了大规模双语语料快速准确的自动获取。在获取“爱词霸”的双语语料时,主要采用Nutch爬虫工具,因为对于英文而言,Nutch爬虫效果相对较好,检索也准确,相关性较好。另外,本文放弃从整个互联网中获取双语语料的思路,采用一个全新的双语平行句对的获取途径,即通过获取中国期刊全文数据库中各学术文章的基本信息来获得大规模高质量的英汉双语平行语料。本文获取了超过GB级的大规模双语对齐语料,经人工评价认为非常准确,为做进一步的跨语言信息检索研究做了准备。