论文部分内容阅读
词汇语义关系是自然语言处理中至关重要的研究之一,词汇语义关系不仅是基础语义知识库构建的基本资源,而且在信息检索、机器翻译、情感分析等领域具有十分重要的作用。词汇语义关系是建立在语义范畴中词汇之间的逻辑关系,其主要关系包括同义关系和上下位关系,本文主要对同义关系和上下位关系中的同义词和下位词进行抽取。其中同义词主要是指在不考虑词汇的语气和词汇的感情色彩,一个或者多个能够表达相同或相近意义并且能够相互替换的词汇或者词组。下位词表示其语义包含在另一个词汇(称为上位词)内涵之中的词汇,即下位词是上位词的一个特殊实例。本文主要工作如下:1)本文从查找的角度对中文词汇语义关系中的同义词和下位词的抽取,提出了结合语义词典和网络资源等多资源的词汇语义关系抽取。其中同义词的抽取,首先根据中文语义词典的结构特点,按照Jaccard算法进行同义词的抽取,其次通过基于规则的方法从百科词条、有道翻译等网络资源中抽取同义词,最后根据词汇的自身特点进行复合结构的同义词抽取;对下位词的抽取,首先结合中文概念词典,其次在网络资源方面,一方面结合百度百科和维基百科的“开放分类”以及互动百科的“分类”等百科资源,另一方面结合百度相关搜索。通过对部分同义词和下位词进行抽取数据的分析,建立一系列同义词和下位词常见的噪音数据,对同义词和下位词进行噪音过滤,生成候选的同义词和下位词集合。2)在候选同义词和下位词集合基础上进行优化过滤。本文对同义词和下位词的优化过滤转化为文本分类问题,对于文本分类,特征的提取是首要任务,使用统计方法进行特征提取,分别将Jaccard系数、互信息、卡方检验、词汇对共现数量、词汇对间最小距离、词汇对间特征词个数等信息作为分类特征,然后使用支持向量机和最大熵模型对同义词和下位词进行优化过滤。实验表明,互信息、卡方检验、词汇对共现数量、词汇对间的最小距离、词汇对间的特征词个数等特征比单独使用Jaccard系数有更大的优势,对于同义词和下位词的抽取,支持向量机好于最大熵模型。3)本文介绍了同义关系和上下位关系在中文人名消歧方面的应用。根据人物信息抽取别名和人物身份,以及人物作品、学习单位、机构团体、专有名词、生活地点等特征,然后对别名和人物身份的权重进行加权,分别使用向量夹角余弦和词汇语义关系加权进行中文人名的消歧,实验结果表明同义关系和上下位关系能够更加有效的对中文人名进行消歧。