论文部分内容阅读
歧义是在自然语言中普遍存在的现象,在特定语境中找到歧义词语表达的特定含义对于句子意义的正确理解非常重要。因此语义排歧对于自然语言处理,机器翻译,文献检索,语音识别,语言学等领域具有重要意义。基于语料库语言学和机器学习的方法建立英语情态动词排歧模型的研究已经取得了丰硕成果,但是对于影响语义分类的语言特征关系的知识发现和可视化研究却甚少。因此,本文应用形式概念分析理论和方法,在对英语情态动词can进行语义排歧的基础上,对影响语义分类的语言特征之间的深层关系进行可视化表达知识发现研究,分析各语言学特征对于语义排歧中的普遍性作用和特异性作用以及特征之间的上下层次关系。本文建立了一个120万字的语料库,从英语情态动词can在语料库中出现的实际例句中提取了六个语言特征,包括两个语义特征,四个句法特征,应用形式概念分析的方法建立了can的语义排歧模型。此模型的自检排歧正确率为94.66%,用检验集检验的正确率为92.66%。此结果证明了形式概念分析的方法对于英语情态动词排歧的有效性。本文应用形式概念分析方法采用训练集数据生成Hasse图,对其中的特征分布进行了观察、对比和知识发现,找出了特征的上下层次关系,发现了不同特征对于语义排歧的普遍性作用和特异性作用。另外,本文用形式概念分析的方法分别对can的三种主要词义进行特征关系可视化研究。在此基础上,进一步实验分析了所选的六个语言特征对于can的排歧贡献度。实验结果表明,语义特征对于英语情态动词can的语义分类具有普遍性作用,而句法特征则具有特异性意义;当can=ability以及can=possibility时,句法特征中的时间基准特征对can的语义分类贡献度相对其它特征更大;而对于can=permission而言,语义特征比句法特征贡献度大。本文应用形式概念分析的理论和方法对英语情态动词can建立的语义排歧模型和对影响can的语义分类的语言特征的层次关系可视化分析,不仅对于英语情态动词的语义排歧研究提供了一种新的、有效方法,而且对于影响其语义分类的特征关系知识发现,以及为机器翻译的特征识别提供了有效的实际应用案例。同时,本文的研究结果为自然语言处理中的特征提取和情态动词的语义研究提供了科学、有效的依据。