论文部分内容阅读
基于语料库的统计翻译中语料库的粒度可分为词、句和语块几种,目前词对齐和句子对齐的双语语料库已经颇具规模,相关的对齐算法也比较成熟.比较之下,语块级对齐算法还有待研究,而对齐算法所需要的语块级对齐语料库则颇为缺乏.本文以酒店领域口语为主要对象,构建了汉英双语语块库.文章介绍了语块库的构建过程、语块库标注规范,并对标注的结果进行了统计分析.以上工作将有助于双语语块对齐算法的改进.