论文部分内容阅读
随着信息急速膨胀,如何更准确、快速地从海量信息中获取用户真正需要的信息成了一个越来越重要的课题。问答系统具有理解用户以自然语言提出的问题、精准定位和快速抽取问题的正确答案等特点,成为解决此问题的有效手段。问题分类是问答系统的核心组成部分,可以为答案的选择和抽取提供语义限制和约束。在某种程度上,问题分类类似于文本分类,都是通过分析文本中包含的信息来确定文本类型。与文本分类相比较,问题分类面临着许多难题,主要有:1.用于问题表示的特征向量空间维数过大,且特征向量相关性较小。2.问题相对短小,所以形成的特征向量空间过于稀疏。为了克服上述两个难题,本文着眼于特征词语的语义,构造了具有语义支持能力的知识库,并提出了一种基于语义的问题分类方法。本文主要工作有三方面内容:首先,提出了一种基于百度百科自动获取词语语义相似度的方法。该方法将百度百科词条与其相关词条作为图中节点,而且它们之间存在链接关系,然后利用SimRank算法计算百科词条语义相似度。其次,基于百度百科词条之间的语义相似度,提出了一种自动抽取百科词条instance-of语义关系的方法。首先,下载并整理百科开放分类树,将其作为语义知识库的概念层次,然后对语义相近的百科词条进行聚类,并计算各个类别下百科词条所属概念(概念即是百科开放分类),即完成百科词条instance-of语义关系的抽取和语义知识库的构建。最后,提出了一种基于语义知识库的问题分类方法。首先,将问题进行泛化,即将问题中出现的词语转化为所属概念,然后对泛化后的问题集进行特征提取,并利用SVM进行问题分类。为了验证本方法的有效性和可用性,我们以百度知道和手机助手的问题作为实验数据集。实验结果表明,本课题构建的语义知识库能提供语义支持,且基于语义的问题分类方法解决了特征向量空间维数高、相关性小、数据稀疏等问题,取得了较高的准确率。