论文部分内容阅读
双语平行语料库是统计机器翻译及其一系列相关研究应用不可或缺的重要资源。传统的人工校验、录入平行语料的方式不仅耗时费力,而且很难在有限的时间内建立起较大规模的平行语料库。随着互联网上各种双语、多语网站的兴起,很多研究人员开始研究从互联网上获取双语平行语料。然而,以往的一些研究主要集中于从平行网页(内容互为翻译的两个不同语种的网页)中获取平行语料。由于平行网页的稀缺性,导致所获得的语料规模、领域覆盖度不是很好。后来,有学者发现Web上存在着大量的混合网页(同一网页中存在互为翻译的两个语种的正文),且混合网页中的双语语料质量、覆盖领域都是平行网页所无法比拟的。因此,本文的研究主要围绕Web上的混合网页展开,并致力于建设能够从Web中的混合网页中自动获取双语平行语料的系统。本文的具体研究内容主要涉及以下几个方面:(1)本文总结了近年来国内外双语平行语料库建设以及双语平行语料库建设方法的研究现状。目前,国内双语平行语料库建设和研究工作的主要侧重于语料的后期处理,如语料库的加工标注、翻译知识获取等方面。同时,已有的平行语料库集中于中英双语平行语料库,面向大规模原始多语种的双语平行语料库的建设并没有得到充分重视。(2)本文在对现有双语平行语料库建设方法进行理论分析的基础上,实现了从Web自动挖掘平行语料的系统。该系统以互联网上广泛存在的具有较高研究价值的双语混合网页为主要的双语语料来源,其主要技术难点在于候选网页获取、双语混合网页检测、网页正文解析、平行句对齐等。本系统采用借助搜索引擎的检测与下载同步进行的候选网页获取方法,以网页内不同语种正文比例进行混合网页检测,使用标签分析的方法进行网页正文解析,平行句对齐则是采用融合了HTML标签特征的句对齐方法。通过实验检验,本系统双语混合网页检测准确率达到95%以上;网页正文解析准确率达到88%以上;平行句对齐准确率达到90%以上。(3)本文结合所获取的双语语料,完成了基于Lucene的多语综合检索系统。该系统以英语为中间语言进行用户查询的处理,经过简单测试,该系统返回的检索结果基本符合要求。