论文部分内容阅读
双语术语互译对抽取是自然语言处理领域中一个重要的研究课题。作为基础资源,双语术语互译对被广泛应用于机器翻译、信息抽取、双语术语词典编撰以及跨语言信息检索等领域。早期的术语互译对抽取工作主要在平行语料上开展,存在语料规模不足等问题。与通过人工翻译或者法规文件等获得的平行语料库相比,可比较语料库具有代价低、来源广等特点。目前,基于可比较语料的研究越来越多,从可比较语料库中挖掘词级别的信息已成为研究的热点。本文在可比较语料的基础上进行双语多词术语互译对的抽取工作。首先从可比较语料库中分别抽取中文多词术语和英文多词术语,然后通过计算中英多词术语之间多个特征值得到术语匹配对,最后使用阈值限定法过滤正确的术语对。其中,在计算术语匹配对时,本文使用最小化样本风险算法来调节特征权重。本文设计和实现了一个多词术语互译对抽取系统,其中,中英可比语料库作为系统的输入,中英多词术语互译对集合作为系统的输出。系统主要分为3个模块:(1)多词术语抽取模块;(2)基于多特征的互译对相似度计算模块;(3)多特征融合和过滤模块。多词术语抽取模块分别从对应的单语语料库中抽取中文多词术语和英文多词术语。互译对相似度计算模块,使用翻译模型特征、词频同现特征、中英匹配特征、英中匹配特征和词长度特征计算中英多词术语之间的匹配度。多特征融合和过滤模块,使用最小样本风险算法(minimum sample risk, MSR)调整各个特征的权重,然后将各个特征值加权求和,结果作为互译对最终的相似度。每个中文多词术语和多个英文多词术语比较,构建多个候选中英多词术语互译对,选择相似度最高且大于阈值的互译对作为正确结果。本文的主要贡献:(1)抽取多词术语时,对现有算法进行改进,并依据语言学知识制定了若干过滤规则,提高了术语的抽取效果;(2)匹配互译对时,将多特征线性融合模型引入到多词术语互译对的抽取工作中,选择了适当的特征,并使用判别学习算法调节特征权重,最后实验验证了本文方法的有效性。