论文部分内容阅读
双语知识就是同时以源语言和目标语言来表述同一概念的知识。在很多自然语言相关的研究领域里面,双语知识都是一种极其重要的资源,比如统计机器翻译利用双语知识作为训练语料,跨语言信息检索利用双语知识来查询使用不同语言编辑的网页,等等。
当前双语知识抽取的研究工作主要集中在两个方面,一是使用对齐算法从平行语料中抽取双语知识,二是使用基于预定义模式的匹配算法从双语网页中抽取双语知识。本文使用双语网页为数据源,提出了一种基于自适应模式的双语知识挖掘(Adaptive Pattern Data Mining)框架,该算法可以从不同的网页中自动地学习到该页面中双语知识的翻译模式,之后再利用模式匹配方法将当前页面上所有与学习到的翻译模式兼容的双语知识提取出来,这样我们就可以得到大量的双语知识。
本文提出的方法主要包含四个步骤:1)预处理:处理编码格式转换、HTML文件解析,以及将网页文本按照语言属性进行切割;2)种子挖掘:利用双语对齐模型识别双语翻译对,双语对齐模型的优点是将翻译和音译过程统一考虑,一定程度上解决了“混合翻译”和“意译”的识别问题;3)模式学习:从种子挖掘模块得到的双语翻译对中学习翻译模式,使用Ranking-SVM对所有抽取出来的翻译模式排序,保留最优模式(TOP1);4)基于模式的挖掘:将学习得到的翻译模式在当前网页文本上进行匹配,保存所有能够匹配成功的文本作为双语知识,该模块能够保证我们得到大量的双语知识。
基于以上四个流程,本文实现了一个实际运行的系统,并在此基础上,给出了一系列的实验,这些实验从宏观和微观两个方面证明了本文提出的方法是切实可行的。宏观上,利用本文提出的挖掘系统,我们在不到3天的时间处理了超过30亿的Web页面,得到了千万级的双语知识,而且人工抽样评测的准确率超过80%;微观上,在人工标定的测试数据集上,我们定量的分析了系统各个模块对系统最终挖掘结果的实际影响,同时,微观方面的评估也帮助我们优化了系统运行参数。