论文部分内容阅读
对于跨语言的统计自然语言处理研究来说,双语语料库可谓是研究工作的基础。双语语料库的规模、覆盖面、质量等直接影响一个统计模型或是算法的效果。此外,在跨语言的自然语言处理研究中,双语翻译知识有着重要的实用价值,翻译知识的获取成为这类研究发展的一个瓶颈。目前,国内对中英双语语料库的建设关注较多,中日双语语料库相对缺乏。公开发布的中日双语语料库规模较小,这一现状制约了中日双语有关的统计自然语言处理研究的发展。由于日语和英语有着不同的语言特征,因此现有的中英双语语料库的构建方法不能照搬到中日双语语料库的自动构建中。本文以网络作为双语信息的来源,研究基于Internet的中日双语信息挖掘、中日双语信息的多级对齐加工方案以实现中日双语平行语料库的自动构建,并在中日双语语料库的基础上研究双语翻译知识的自动获取。具体地讲,本文的主要工作体现在以下几个方面:1、研究了基于Internet的双语信息挖掘技术。提出一种针对隐式平行的双语网页信息挖掘方案:在标题对齐的基础上,利用对齐段落长度比值特征对网页文本进行对齐,从而获取双语平行网页。该方案解决了无法通过计算URL相似度或者无法通过分析DOM树获取隐式平行网页的问题,并且该方案不需要双语词典。另外,论文还提出了一种针对中日双语混和网页的信息挖掘方案:利用中日双语排版特征进行双语混和文本的分离,再利用句子对齐的方法获取双语信息。综合两种方案,实现了一个基于Internet的中日双语信息挖掘系统,系统的输出包含双语词汇表、双语句对表以及双语对齐篇章。2、在篇章对齐的基础上,研究了中日双语段落对齐和句子对齐,将从网络中挖掘出的双语篇章加工成具有实用价值的双语平行句对语料库。在段落对齐中,提出了一种通用的段落对齐方法:利用文档内段落信息量比值进行段落对齐。相比于传统的段落对齐方法,该方法简单有效。在句子对齐中,针对中日双语新闻语料的特点,提出了一种基于句子信息量比值和日中汉字映射的句子对齐方法:首先利用日中汉字映射以及句子长度选择锚点句,然后以锚点句划分句子对齐范围,最后利用基于信息量比值和日中汉字映射的方法进行句子对齐。对于中文到日文的“1:n型”的对齐结果,为了增加双语平行句对的数量,提出了一种基于信息量长度比值的中文长句切分方法,将“1:n型”句子对齐结果转化为n个“1:1型”句子对齐。3、研究了中日双语平行句对语料库的词对齐技术。在语料库规模有限的情况下,提出一种混和策略的中日词对齐方法,该方法在IBM词对齐统计模型的基础上,加入词对齐规则,以提高词对齐结果的正确率和召回率。论文还分析了中日分词结果对词对齐结果的影响。针对中日新闻语料长句对多的情况,提出了一种基于信息量长度比值的双语长句对切分方案,该方案将可以进行切分的长句对转化为若干个短的平行句对,从而增加双语语料库中短句句对的比例,以提高词对齐等后续各种研究的计算效果。4、研究了基于中日双语平行句对语料库的翻译知识获取。在语料库规模有限的情况下,引入词性、日中汉字映射等语言特征,将同现统计方法和规则相结合,采用贪婪算法实现双语词表的自动抽取。还研究了基于语料库的中日命名实体翻译的自动抽取方法,重点探讨了人名、地名以及机构名翻译的抽取策略。本文通过实验验证了基于Internet的双语平行语料库自动构建以及基于双语语料库翻译知识自动获取的可行性。