论文部分内容阅读
为了实现基于自然语言的智能信息处理,计算机需要了解大量的语义知识。大规模语义词典和知识库通常依靠人工构建完成,在建设和维护过程中耗费了大量的人力物力。从语料资源中自动抽取语义信息,建设大规模的语义知识资源已成为一个热门的研究课题。维基百科是一个开放式的在线百科全书,对于自然语言处理它不止是一个大规模的语料库,还可以用作一个包含了大量人类知识和语义关系的知识库资源。本文从自然语言处理和语义知识资源建设两方面出发,研究了维基百科挖掘语义信息挖掘等方面的处理方法及相关应用。针对自然语言处理中的语义相关度计算,本文提出了基于维基百科链接关系(分类图和文档图)的“多路径搜索”算法。实验下载了中文维基百科页面并利用链接关系抽取出反映分类层次关系的分类图以及反映解释文档超级链接引用的文档图。进一步通过搜索多条相关路径,综合路径长度及节点或链接权重等完成语义相关度计算。实验利用超级链接引用关系抽取了大量的语义相关词对,并建立了一个人工标注的测试集,通过与经典算法的对比对实验结果进行了分析评估。文本语义相关度的计算也可以利用维基百科实现语义知识扩展。实验抽取了页面重定向、分类层次、文本链接等反映语义关联关系的链接结构,并利用矩阵运算综合了直接或间接的语义关联关系,建立了一个包含维基百科背景知识的语义转换矩阵。通过将文档词频向量与语义转换矩阵相乘,获得一个在新的语义空间上的扩展向量,利用传统的向量夹角余弦等方法计算文本的语义相关度。算法同样可以用于抽取大量的存在语义相关关系的词,作为语义相关度测试集。针对挖掘维基百科构建语义知识资源,本文从两个角度进行了探索。一方面结合维基百科分类图的层次关系及词汇短语结构,并利用解释页面文档的句法模式等信息,挖掘出反映语义关系类别的信息,并为不包含具体语义关系类型的分类图添加语义关系标记,建立一个本体型语义层次网络。另一方面,从维基百科词汇中筛选出反映独立语义概念的核心词,并为所有词条标注最能反映概念、属性特征的相关词解释,建立解释型语义词典。进一步探讨了将维基百科关联到中文语义词典知网(HowNet),并通过挖掘分类关系为其扩充新词、标注义原解释的可行性及其实现方式。