论文部分内容阅读
双语翻译是跨语言文化交流的桥梁,双语词典是双语翻译的重要工具,也是外语学习研究的重要资源。由于词典编纂工作一直以来都是耗时耗力的大工程,加上中英两种语言发展速度较快,大量新词不断出现,双语词典的更新工作一直处于严重滞后状态,成为词典编纂人员面临的主要难题。本文以Web语料为数据源,从信息抽取、信息过滤、知识获取、知识验证等角度研究中英文翻译抽取工作,对中英文双语词典的自动编纂和中英文知识的自动获取工作起到了推动作用。本文的主要工作有以下几个方面:(1)研究中英文翻译抽取工作面临的主要问题与现状,分析当前翻译抽取工作中的不足,给出一种基于Web的中英文翻译抽取方法,并介绍抽取方法的基本思路与流程。(2)利用网页信息抓取技术,结合正则表达式的应用,实现从Web中大量获取含有中英文翻译的语料。在语料预处理环节,提出一种基于谓词表达式演变的语料过滤系统,通过制定语料过滤规则,实现语料的自动过滤,为后续的翻译精确提取奠定了基础。(3)根据中英文翻译在语料中的存在特点,给出基于形式和基于统计两种翻译提取思路,并在基于统计的翻译提取模型中,分别结合计算汉字出现概率变化率、汉字信息熵和词组凝聚度,提出三种翻译提取方法。此外,对于少部分不能用上述提取方法的待提取翻译,采用基于停用词的提取方法,保证翻译提取的召回率。(4)在翻译提取后,提出一种基于单词出现频率和编辑距离的英文单词拼写纠错方法。在纠错完成后,给出一种翻译优化与整合思路,通过对提取翻译进行分类、计算各类翻译准确率和数量,计算出各个翻译的可信度,最终按照翻译可信度高低的排序,整合所有最优翻译,自动生成中英文翻译词典。根据基于大量Web语料的实验表明,本文提出的基于Web语料的中英文词典生成方法可行性大,实用性强,能够大幅度的提高词典编纂效率。