中日双语平行语料库的自动构建技术研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:Ben_Chen111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于跨语言的统计自然语言处理研究来说,双语语料库可谓是研究工作的基础。双语语料库的规模、覆盖面、质量等直接影响一个统计模型或是算法的效果。此外,在跨语言的自然语言处理研究中,双语翻译知识有着重要的实用价值,翻译知识的获取成为这类研究发展的一个瓶颈。目前,国内对中英双语语料库的建设关注较多,中日双语语料库相对缺乏。公开发布的中日双语语料库规模较小,这一现状制约了中日双语有关的统计自然语言处理研究的发展。由于日语和英语有着不同的语言特征,因此现有的中英双语语料库的构建方法不能照搬到中日双语语料库的自动构建中。本文以网络作为双语信息的来源,研究基于Internet的中日双语信息挖掘、中日双语信息的多级对齐加工方案以实现中日双语平行语料库的自动构建,并在中日双语语料库的基础上研究双语翻译知识的自动获取。具体地讲,本文的主要工作体现在以下几个方面:1、研究了基于Internet的双语信息挖掘技术。提出一种针对隐式平行的双语网页信息挖掘方案:在标题对齐的基础上,利用对齐段落长度比值特征对网页文本进行对齐,从而获取双语平行网页。该方案解决了无法通过计算URL相似度或者无法通过分析DOM树获取隐式平行网页的问题,并且该方案不需要双语词典。另外,论文还提出了一种针对中日双语混和网页的信息挖掘方案:利用中日双语排版特征进行双语混和文本的分离,再利用句子对齐的方法获取双语信息。综合两种方案,实现了一个基于Internet的中日双语信息挖掘系统,系统的输出包含双语词汇表、双语句对表以及双语对齐篇章。2、在篇章对齐的基础上,研究了中日双语段落对齐和句子对齐,将从网络中挖掘出的双语篇章加工成具有实用价值的双语平行句对语料库。在段落对齐中,提出了一种通用的段落对齐方法:利用文档内段落信息量比值进行段落对齐。相比于传统的段落对齐方法,该方法简单有效。在句子对齐中,针对中日双语新闻语料的特点,提出了一种基于句子信息量比值和日中汉字映射的句子对齐方法:首先利用日中汉字映射以及句子长度选择锚点句,然后以锚点句划分句子对齐范围,最后利用基于信息量比值和日中汉字映射的方法进行句子对齐。对于中文到日文的“1:n型”的对齐结果,为了增加双语平行句对的数量,提出了一种基于信息量长度比值的中文长句切分方法,将“1:n型”句子对齐结果转化为n个“1:1型”句子对齐。3、研究了中日双语平行句对语料库的词对齐技术。在语料库规模有限的情况下,提出一种混和策略的中日词对齐方法,该方法在IBM词对齐统计模型的基础上,加入词对齐规则,以提高词对齐结果的正确率和召回率。论文还分析了中日分词结果对词对齐结果的影响。针对中日新闻语料长句对多的情况,提出了一种基于信息量长度比值的双语长句对切分方案,该方案将可以进行切分的长句对转化为若干个短的平行句对,从而增加双语语料库中短句句对的比例,以提高词对齐等后续各种研究的计算效果。4、研究了基于中日双语平行句对语料库的翻译知识获取。在语料库规模有限的情况下,引入词性、日中汉字映射等语言特征,将同现统计方法和规则相结合,采用贪婪算法实现双语词表的自动抽取。还研究了基于语料库的中日命名实体翻译的自动抽取方法,重点探讨了人名、地名以及机构名翻译的抽取策略。本文通过实验验证了基于Internet的双语平行语料库自动构建以及基于双语语料库翻译知识自动获取的可行性。
其他文献
农作物种子作为人类食物、动物饲料和工业原材料的重要来源,主要由二倍体的胚胎和三倍体的胚乳组成。大多数农艺性状,包括种子性状都是复杂性状,它不仅仅受到单个基因控制,同
图像分割是计算机视觉领域的一个核心问题,尤其在图像处理、分析和理解等领域是一项关键技术。图像分割是把图像分解成各具特性的区域并提取出感兴趣目标的技术和过程,是从图
银杏作为我们国家特产的中药材之一,主要功效是疏通经络、散瘀活血,多预防用于心脑血管疾病。为了进一步研究银杏叶提取物在临床中的应用情况,本文从药理分析、使用剂量、制
自创品牌升级成为中国民企的经营重心,而品牌升级陷入方式僵化、效率低下、驱动力不足等问题中。为解决此问题,本文基于战略创业理论对宁波方太公司的品牌升级路径做了探索性
进入新时代,在纷繁复杂的社会发展过程中高校思想政治教育将发挥更积极的作用。《毛泽东思想和中国特色社会主义理论体系概论》课程是高校基本必修课之一。在教授过程中应从
高6米,重达2吨“赛博马(Cyber Horse)”驻立于以色列的特拉维夫大学中。这是一匹别具一格的马,它由数千部曾被病毒感染破坏的智能电话、平板、电脑、键盘等电子设备打造而成。
<正>这家"以儒治企"的企业成立的企业大学有什么不一样"伟大的企业既是一个经济组织,又是一个社会组织,它既要创造顾客需求,让顾客安心;又要积极承担社会责任,导人向善。"方
为培养能够适应现如今激烈竞争状况的高素质现代化的医学专业性人才,对于中国加入到WTO之后所需直面的教育发展要求,努力提升医学生专业英语水平的能力已经成为了对高等教育
目的系统评价大黄与奥曲肽联用治疗急性胰腺炎的有效性和安全性。方法计算机检索中国生物医学文献数据库(CBM)、维普(VIP)、中国知网(CNKI)、PubMed和万方数据库,查找有关应
新时期档案的管理要体现时代和地方特征,需不断加以优化并实现共享,现代档案信息化建设要不断改善档案资源结构,对档案资源进行有效整合,在全面建设中寻求新突破,迎接全新的机遇和