论文部分内容阅读
歧义是日常生活交际中普遍存在的现象。在特定语境中确定歧义词语表达的特定含义对于整篇文章的理解具有重要的意义。语义排歧是自然语言处理最具有挑战性的问题之一,应用于机器翻译、信息检索、文本挖掘、文本分类、语音识别以及人机交互等领域。情态动词能清楚表达说话者的态度和意图,对复杂语义情态动词进行的语义排歧对人类语言的研究具有重要意义。本文以Rodolf Wille所提出的形式概念分析作为理论依据,建立二级情态动词could的语义排歧模型。本文建立了一个300万字的语料库,基于Coates对情态动词意义划分的理论,将could的语义分为3个根意义和1个情态意义,计算could的4个词义与句子主语和相关动词的互信息,从could在语料库实际出现的语境中提取了8个句法特征,运用形式概念分析的方法建立了could的语义排歧模型。排歧的精确度达到92.33%,这一结果说明形式概念分析的方法对于英语情态动词排歧的有效性。基于语义排歧模型,提取出二级情态动词could语义排歧的规则,其排歧正确率达到92%。此外,本文还运用另一种方法进行规则提取,即基于属性特征的规则提取方法。基于简化的形式背景,归纳出could的属性特征,实验表明类独有属性和类独有复合属性对could词义划分有重要贡献,此种方法提取规则的复检正确率高达94%。在此基础上,本文对两种规则提取的方法进行了进一步的对比归纳。本文运用形式概念分析的理论和方法对二级情态动词could进行语义排歧,并在建立的属性正序图的基础上提取规则。此外,本文运用属性特征的方法提取规则,得到较高的排歧正确率。此项研究拓宽了自然语言语义排歧研究的视野,对二级情态动词的语义研究和自然语言处理都具有理论和实践指导意义。