论文部分内容阅读
随着信息技术的不断进步和计算机网络的飞速发展,每天在互联网上传播的信息和知识达到以往数倍。同时,现实领域中也产生了海量的双语数据,这些数据对于统计机器翻译研究无疑是一笔巨大的财富。但是,由于数据来源不同、获取方法粗糙、译员水平不一等问题,导致数据的质量和领域存在巨大差异,这些差异性都会影响到机器译文的质量。此外,受限于计算能力和存储能力的制约,在单机环境下已经很难高效的处理TB级以上的大规模文本语料。 本文围绕上述几个问题展开研究,尝试分析并解决语料质量和领域差异对统计机器翻译带来的问题。主要工作和创新点包括以下几点: 1.基于双语句对质量的语料筛选。本文提出了两种语料筛选策略,基于双语句对长度比值方法和基于词对齐信息方法。这两种方法的创新之处是都不需要额外语言学资源如双语词典、句法分析器等作为辅助,不需要人工干预,可以自动挑出质量较差的句对,并可以适用于任何语种对。实验表明,两种方法均有不错的效果,可以有效提高统计机器翻译质量。 2.双语平行句对的领域自动分类。本文分析了领域差异对统计机器翻译系统的影响。提出了一种基于n元组的半监督领域分类方法,实现了对大规模混合领域双语句对的句级领域分类。使用该分类器识别出待译语句的领域种类,并应用对应领域的翻译系统完成翻译任务。 3.大规模文本处理的分布式算法实现。本文结合开源系统Hadoop,使用分布式处理算法实现语料筛选和领域分类。