论文部分内容阅读
专利语料中的介词短语一般长而复杂,且存在嵌套现象,不易为机器自动识别。针对专利语料的特殊性,本文提出一种基于语义分析的识别策略,汉语介词因语义功能不同而被分为两类,可根据介词语义类和上下文特征信息来制定规则,确定短语的左右边界及句法层次。测试结果表明,融合本策略的机器翻译系统在短语识别准确率、召回率和BLEU值三项指标上均得到显著提升。